Un tecnico ha recentemente condiviso i risultati del suo esperimento con modelli linguistici di piccole dimensioni, denominati FlashLM, progettati per essere addestrati ed eseguiti interamente su CPU.

Dettagli del modello

Il modello FlashLM v3-13m presenta le seguenti caratteristiche:

  • 13,6 milioni di parametri, con una dimensione d_model di 256.
  • Pesi ternari ({-1, 0, +1}), il che significa che l'inference richiede solo addizioni e sottrazioni, senza moltiplicazioni.
  • Addestramento su CPU a 2 thread, senza GPU, in 1,2 ore.
  • Addestrato su 32 milioni di token provenienti da FineWeb-Edu.
  • Validation loss: 6.80.
  • Utilizza embedding GPT-2 congelati (proiettati tramite SVD) per evitare di sprecare tempo di addestramento nell'apprendimento di una tabella di embedding.

Performance e colli di bottiglia

Il modello genera un inglese grammaticalmente corretto, ma manca di coerenza semantica. L'aspetto più sorprendente è che l'86% del tempo di addestramento è stato impiegato nel livello di output, proiettando 256 dimensioni in un vocabolario di 50.257 token. Questo collo di bottiglia ha limitato l'efficacia dell'addestramento del core del modello.

Il tecnico sta lavorando a una versione successiva (v4) che sostituisce il softmax con una struttura ad albero gerarchica per risolvere questo problema. Se avrà successo, ciò potrebbe consentire un addestramento 5-10 volte più efficace nello stesso tempo.

Per chi valuta deployment on-premise, esistono trade-off legati all'ottimizzazione di modelli per CPU rispetto a GPU, che AI-RADAR analizza in dettaglio nella sezione /llm-onpremise.