LLM a 10 token/s su un i3 di 8a generazione: si può fare!

Un utente ha condiviso la sua esperienza nell'esecuzione di un modello linguistico di grandi dimensioni (LLM) da 16 miliardi di parametri su un hardware datato: un laptop HP ProBook 650 G5 del 2018, dotato di un processore Intel i3-8145U di ottava generazione e 16 GB di RAM in configurazione dual-channel.

L'obiettivo era dimostrare che, contrariamente a quanto suggerito da alcune soluzioni AI proprietarie, è possibile eseguire modelli complessi anche con risorse limitate. L'utente, che scrive dalla Birmania, sottolinea come l'accesso a hardware di ultima generazione come le NVIDIA 4090 o i MacBook di fascia alta non sia sempre possibile.

CPU vs iGPU: la sfida

Dopo un mese di ottimizzazioni, l'utente è riuscito a raggiungere una velocità di 10 token al secondo (TPS) con il modello DeepSeek-Coder-V2-Lite (16B MoE). Il test comparativo tra CPU e iGPU (Intel UHD 620) ha visto prevalere quest'ultima, grazie all'integrazione con OpenVINO. L'iGPU ha raggiunto una velocità media di 8.99 token/s, con picchi di 9.73 token/s, superando le prestazioni della CPU (8.59 token/s di media, 9.26 token/s di picco).

Strategie di ottimizzazione

Le principali strategie adottate includono:

Utilizzo di modelli MoE (Mixture of Experts): nonostante i 16 miliardi di parametri, solo 2.4 miliardi vengono calcolati per token, rendendo il modello più efficiente rispetto a modelli densi più piccoli.
Configurazione dual-channel della RAM: essenziale per garantire una larghezza di banda sufficiente.
Sistema operativo Linux: Ubuntu è stato scelto per ridurre al minimo i processi in background.
Integrazione di OpenVINO tramite llama-cpp-python: per semplificare la gestione delle dipendenze.

Considerazioni finali

L'utente avverte che l'iGPU richiede tempo per la compilazione iniziale e che occasionalmente possono verificarsi errori di lingua (token cinesi), ma la logica del modello rimane intatta. L'esperienza dimostra che l'accesso all'AI non dovrebbe essere limitato dalla disponibilità di risorse economiche elevate. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.

LLM a 10 token/s su un i3 di 8a generazione: si può fare!

CPU vs iGPU: la sfida

Strategie di ottimizzazione

Considerazioni finali

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Qwen3.5-0.8B: inference LLM su hardware datato senza GPU

Configurazione hardware con 3 GPU V620 per 96GB di VRAM

Workstation LLM locale con 6 GPU: scalabilità e orchestrazione

👥 Unisciti a 160+ appassionati di AI