Inference LLM locale con risorse limitate
Un utente ha descritto la propria configurazione per eseguire il modello linguistico Qwen 3.5 35B in locale, sfruttando una GPU RTX 4060m con soli 8GB di VRAM. L'obiettivo รจ quello di creare un ambiente di sviluppo agentico efficiente, superando i limiti riscontrati con soluzioni basate su cloud.
Configurazione hardware e ottimizzazioni
Il sistema utilizzato รจ un Lenovo Legion equipaggiato con un processore Intel i9-14900HX (con E-core disabilitati) e 32GB di RAM DDR5. Per ottimizzare le prestazioni del modello, l'utente ha impiegato llama.cpp con parametri specifici:
-ngl 99--n-cpu-moe 40-c 192000-t 12-tb 16-b 4096--ubatch-size 2048--flash-attn on--cache-type-k q8_0--cache-type-v q8_0--mlock
Queste impostazioni permettono di raggiungere circa 700 token/s durante la fase di elaborazione del prompt e 42 token/s per la generazione dei token. L'utente sta valutando se questa configurazione locale sia preferibile rispetto all'utilizzo di modelli piรน piccoli e veloci ospitati su cloud, considerando che la privacy dei dati non รจ una prioritร assoluta nel suo caso d'uso.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!