Liquid AI ha annunciato il rilascio di LFM2-24B-A2B, il loro modello LFM2 piรน grande fino ad oggi.

LFM2-24B-A2B รจ un modello sparse Mixture-of-Experts (MoE) con 24 miliardi di parametri totali, di cui 2 miliardi attivi per token. Questo dimostra che l'architettura ibrida LFM2 scala efficacemente a dimensioni maggiori, mantenendo la qualitร  senza aumentare il calcolo per token.

Questa nuova versione espande la famiglia LFM2 da 350 milioni a 24 miliardi di parametri, dimostrando un ridimensionamento prevedibile su quasi due ordini di grandezza.

Caratteristiche principali:

  • Architettura MoE: 40 livelli, 64 esperti per blocco MoE con top-4 routing, mantenendo il design ibrido conv + GQA
  • 2.3 miliardi di parametri attivi per forward pass
  • Progettato per funzionare con 32 GB di RAM, consentendo il deployment su laptop e desktop di fascia alta
  • Supporto day-zero per l'inference tramite llama.cpp, vLLM e SGLang
  • Quantizzazioni GGUF multiple disponibili

I benchmark, tra cui GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K e MATH-500, mostrano che la qualitร  migliora in modo log-lineare man mano che si scala da 350 milioni a 24 miliardi, confermando che l'architettura LFM2 non si stabilizza a dimensioni ridotte.

LFM2-24B-A2B รจ rilasciato come modello instruct ed รจ disponibile open-weight su Hugging Face. รˆ stato progettato per concentrare la capacitร  nei parametri totali, non nel calcolo attivo, mantenendo la latenza di inference e il consumo di energia allineati con i vincoli di edge e deployment locale.

Questo รจ il passo successivo per rendere l'AI veloce, scalabile ed efficiente accessibile nel cloud e on-device.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per la valutazione.