Un utente ha condiviso la sua esperienza nell'esecuzione di un modello linguistico di grandi dimensioni (LLM) da 16 miliardi di parametri su un hardware datato: un laptop HP ProBook 650 G5 del 2018, dotato di un processore Intel i3-8145U di ottava generazione e 16 GB di RAM in configurazione dual-channel.
L'obiettivo era dimostrare che, contrariamente a quanto suggerito da alcune soluzioni AI proprietarie, è possibile eseguire modelli complessi anche con risorse limitate. L'utente, che scrive dalla Birmania, sottolinea come l'accesso a hardware di ultima generazione come le NVIDIA 4090 o i MacBook di fascia alta non sia sempre possibile.
CPU vs iGPU: la sfida
Dopo un mese di ottimizzazioni, l'utente è riuscito a raggiungere una velocità di 10 token al secondo (TPS) con il modello DeepSeek-Coder-V2-Lite (16B MoE). Il test comparativo tra CPU e iGPU (Intel UHD 620) ha visto prevalere quest'ultima, grazie all'integrazione con OpenVINO. L'iGPU ha raggiunto una velocità media di 8.99 token/s, con picchi di 9.73 token/s, superando le prestazioni della CPU (8.59 token/s di media, 9.26 token/s di picco).
Strategie di ottimizzazione
Le principali strategie adottate includono:
- Utilizzo di modelli MoE (Mixture of Experts): nonostante i 16 miliardi di parametri, solo 2.4 miliardi vengono calcolati per token, rendendo il modello più efficiente rispetto a modelli densi più piccoli.
- Configurazione dual-channel della RAM: essenziale per garantire una larghezza di banda sufficiente.
- Sistema operativo Linux: Ubuntu è stato scelto per ridurre al minimo i processi in background.
- Integrazione di OpenVINO tramite llama-cpp-python: per semplificare la gestione delle dipendenze.
Considerazioni finali
L'utente avverte che l'iGPU richiede tempo per la compilazione iniziale e che occasionalmente possono verificarsi errori di lingua (token cinesi), ma la logica del modello rimane intatta. L'esperienza dimostra che l'accesso all'AI non dovrebbe essere limitato dalla disponibilità di risorse economiche elevate. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per supportare queste valutazioni.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!