FlashLM v4: un modello linguistico ternario efficiente
FlashLM v4 rappresenta un passo avanti nello sviluppo di modelli linguistici di dimensioni contenute. Questo modello, con soli 4.3 milioni di parametri e pesi ternari (-1, 0, +1), è stato addestrato su CPU in sole due ore, senza l'ausilio di GPU.
Il modello è in grado di generare storie per bambini coerenti, con dialoghi e struttura narrativa. Questo risultato è stato ottenuto grazie a un'architettura ottimizzata e a un dataset di training mirato, TinyStories.
Dettagli tecnici
- Parametri: 4.3 milioni (ternari)
- Hardware: CPU a 2 thread
- Tempo di addestramento: 2 ore
- Dataset: TinyStories
- Architettura: Gated conv + GLU (senza attention)
- Vocabolario: 10K
FlashLM v4 utilizza una quantization ternaria con stima straight-through. Durante l'inference, le operazioni principali sono semplici addizioni, sottrazioni e zeri.
Confronto con TinyStories-1M
FlashLM v4 è stato confrontato con TinyStories-1M, un modello di dimensioni simili addestrato su GPU. Sebbene FlashLM v4 sia ancora indietro in termini di BPC (bits-per-character), ha visto solo una piccola frazione dei dati di addestramento di TinyStories-1M. Questo suggerisce che FlashLM v4 ha ancora margine di miglioramento con un addestramento più esteso.
Prossimi sviluppi
Il team di sviluppo prevede di addestrare una versione più grande di FlashLM v4 su un hardware più potente, con l'obiettivo di colmare il divario di performance con TinyStories-1M. È prevista anche la pubblicazione del codice di addestramento per consentire a chiunque di riprodurre i risultati su hardware proprio.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!