Esecuzione locale di LLM: un anno di progressi
A poco piรน di un anno dal momento DeepSeek, l'esecuzione di modelli linguistici di grandi dimensioni (LLM) in locale ha fatto passi da gigante. Un tweet di un ingegnere di Hugging Face aveva evidenziato come fosse possibile eseguire DeepSeek R1 @ Q8 a circa 5 token al secondo (tps) con un investimento di circa 6000 dollari.
Hardware piรน efficiente
Oggi, alla stessa velocitร , un mini PC da circa 600 dollari permette di eseguire Qwen3-27B @ Q4, un modello piรน avanzato. Per velocitร ancora piรน elevate, Qwen3.5-35B-A3B @ Q4/Q5 raggiunge i 17-20 tps.
Prospettive future
Il rapido miglioramento dei modelli piรน piccoli fa ipotizzare che, nel prossimo futuro, si potranno eseguire modelli da 4B con prestazioni superiori a Kimi 2.5. Per chi valuta deployment on-premise, esistono trade-off da considerare; AI-RADAR offre framework analitici su /llm-onpremise per valutare le diverse opzioni.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!