Esecuzione locale di LLM: un anno di progressi

A poco più di un anno dal momento DeepSeek, l'esecuzione di modelli linguistici di grandi dimensioni (LLM) in locale ha fatto passi da gigante. Un tweet di un ingegnere di Hugging Face aveva evidenziato come fosse possibile eseguire DeepSeek R1 @ Q8 a circa 5 token al secondo (tps) con un investimento di circa 6000 dollari.

Hardware più efficiente

Oggi, alla stessa velocità, un mini PC da circa 600 dollari permette di eseguire Qwen3-27B @ Q4, un modello più avanzato. Per velocità ancora più elevate, Qwen3.5-35B-A3B @ Q4/Q5 raggiunge i 17-20 tps.

Prospettive future

Il rapido miglioramento dei modelli più piccoli fa ipotizzare che, nel prossimo futuro, si potranno eseguire modelli da 4B con prestazioni superiori a Kimi 2.5. Per chi valuta deployment on-premise, esistono trade-off da considerare; AI-RADAR offre framework analitici su /llm-onpremise per valutare le diverse opzioni.