Liquid AI ha annunciato il rilascio di LFM2-24B-A2B, il loro modello LFM2 piรน grande fino ad oggi.
LFM2-24B-A2B รจ un modello sparse Mixture-of-Experts (MoE) con 24 miliardi di parametri totali, di cui 2 miliardi attivi per token. Questo dimostra che l'architettura ibrida LFM2 scala efficacemente a dimensioni maggiori, mantenendo la qualitร senza aumentare il calcolo per token.
Questa nuova versione espande la famiglia LFM2 da 350 milioni a 24 miliardi di parametri, dimostrando un ridimensionamento prevedibile su quasi due ordini di grandezza.
Caratteristiche principali:
- Architettura MoE: 40 livelli, 64 esperti per blocco MoE con top-4 routing, mantenendo il design ibrido conv + GQA
- 2.3 miliardi di parametri attivi per forward pass
- Progettato per funzionare con 32 GB di RAM, consentendo il deployment su laptop e desktop di fascia alta
- Supporto day-zero per l'inference tramite llama.cpp, vLLM e SGLang
- Quantizzazioni GGUF multiple disponibili
I benchmark, tra cui GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K e MATH-500, mostrano che la qualitร migliora in modo log-lineare man mano che si scala da 350 milioni a 24 miliardi, confermando che l'architettura LFM2 non si stabilizza a dimensioni ridotte.
LFM2-24B-A2B รจ rilasciato come modello instruct ed รจ disponibile open-weight su Hugging Face. ร stato progettato per concentrare la capacitร nei parametri totali, non nel calcolo attivo, mantenendo la latenza di inference e il consumo di energia allineati con i vincoli di edge e deployment locale.
Questo รจ il passo successivo per rendere l'AI veloce, scalabile ed efficiente accessibile nel cloud e on-device.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per la valutazione.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!