Falcon-H1-Tiny: micro-modelli che funzionano
TII ha presentato Falcon-H1-Tiny, una serie di modelli con meno di 100 milioni di parametri che mettono in discussione l'approccio tradizionale dello scaling. Si sospettava che modelli piccoli e specializzati avessero una minore tendenza a generare allucinazioni rispetto a modelli generalisti piรน grandi. Questa release lo dimostra con dati concreti, cambiando la prospettiva sulle capacitร dei modelli di dimensioni ridotte.
Novitร principali
- Anti-curriculum training: invece del pre-training su dati web generici e successivo fine-tuning, i modelli vengono addestrati fin dall'inizio con dati specifici per il dominio di destinazione (SFT, ragionamento, chiamate di strumenti). Questo approccio si dimostra efficace per modelli da 90 milioni di parametri, evitando l'overfitting anche dopo oltre 100 epoche su dati di alta qualitร .
- Blocchi ibridi Mamba+Attention: ereditati da Falcon-H1, con l'aggiunta di Learnable Multipliers e l'ottimizzatore Muon (che offre un guadagno relativo fino al 20% rispetto ad AdamW).
- Varianti specializzate:
- Un modello da 90 milioni di parametri per la chiamata di strumenti raggiunge il 94,44% di accuratezza nel rilevamento della rilevanza (sa quando chiamare una funzione), eguagliando le prestazioni del modello Function Gemma da 270 milioni di parametri.
- Un modello da 600 milioni di parametri per il ragionamento (R-0.6B) risolve il 75% dei problemi AIME24 pass@1, risultando competitivo con modelli da 7 miliardi di parametri.
- Un modello da 90 milioni di parametri per la generazione di codice con supporto nativo FIM esegue l'autocompletamento all'interno di VS Code tramite il plugin Continue.
Implicazioni per il deployment locale
Modelli di queste dimensioni (circa 90 MB quantizzati a Q8_0) possono essere eseguiti su qualsiasi smartphone moderno o Raspberry Pi senza problemi. Non sono pensati per sostituire modelli piรน grandi, ma sono progettati specificamente per ambienti con risorse limitate dove l'ingombro e la latenza sono fattori critici. Scalando questi modelli a circa 1 miliardo di parametri, potrebbero coprire il 90% dei casi d'uso locali quotidiani: chat, chiamata di strumenti, generazione di codice e ragionamento, il tutto rimanendo sotto i 500 MB anche con la quantization.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!