Liquid AI: LFM2-24B a 50 token/s su browser con WebGPU

Liquid AI ha dimostrato l'esecuzione del suo modello linguistico LFM2-24B-A2B direttamente in un browser web, raggiungendo prestazioni notevoli grazie all'utilizzo di WebGPU.

Performance

Il modello, una architettura Mixture of Experts (MoE) con 24 miliardi di parametri totali di cui 2 miliardi attivi, genera circa 50 token al secondo su un dispositivo dotato di chip M4 Max. La variante più piccola, LFM2-8B-A1B, arriva a superare i 100 token al secondo sulla stessa configurazione hardware.

Risorse

Liquid AI ha reso disponibili una demo e il codice sorgente del progetto su Hugging Face: https://huggingface.co/spaces/LiquidAI/LFM2-MoE-WebGPU. Sono inoltre disponibili i modelli ONNX ottimizzati:
* LFM2-8B-A1B-ONNX: https://huggingface.co/LiquidAI/LFM2-8B-A1B-ONNX
* LFM2-24B-A2B-ONNX: https://huggingface.co/LiquidAI/LFM2-24B-A2B-ONNX

L'esecuzione di modelli di grandi dimensioni direttamente nel browser apre nuove possibilità per applicazioni AI a bassa latenza e con requisiti di privacy elevati. Per chi valuta deployment on-premise, esistono trade-off tra performance, costi e controllo dei dati; AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Liquid AI: LFM2-24B a 50 token/s su browser con WebGPU

Performance

Risorse

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Liquid AI presenta LFM2-24B-A2B: modello MoE da 24 miliardi di parametri

GPT-OSS 120B: modello open-source non censurato per inference locale

OpenAI: ricavi previsti a 280 miliardi di dollari entro il 2030

👥 Unisciti a 160+ appassionati di AI