Liquid AI ha dimostrato l'esecuzione del suo modello linguistico LFM2-24B-A2B direttamente in un browser web, raggiungendo prestazioni notevoli grazie all'utilizzo di WebGPU.
Performance
Il modello, una architettura Mixture of Experts (MoE) con 24 miliardi di parametri totali di cui 2 miliardi attivi, genera circa 50 token al secondo su un dispositivo dotato di chip M4 Max. La variante piรน piccola, LFM2-8B-A1B, arriva a superare i 100 token al secondo sulla stessa configurazione hardware.
Risorse
Liquid AI ha reso disponibili una demo e il codice sorgente del progetto su Hugging Face: https://huggingface.co/spaces/LiquidAI/LFM2-MoE-WebGPU. Sono inoltre disponibili i modelli ONNX ottimizzati:
* LFM2-8B-A1B-ONNX: https://huggingface.co/LiquidAI/LFM2-8B-A1B-ONNX
* LFM2-24B-A2B-ONNX: https://huggingface.co/LiquidAI/LFM2-24B-A2B-ONNX
L'esecuzione di modelli di grandi dimensioni direttamente nel browser apre nuove possibilitร per applicazioni AI a bassa latenza e con requisiti di privacy elevati. Per chi valuta deployment on-premise, esistono trade-off tra performance, costi e controllo dei dati; AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!