Qwen 3.5 35B: inference locale con 8GB di VRAM

Inference LLM locale con risorse limitate

Un utente ha descritto la propria configurazione per eseguire il modello linguistico Qwen 3.5 35B in locale, sfruttando una GPU RTX 4060m con soli 8GB di VRAM. L'obiettivo è quello di creare un ambiente di sviluppo agentico efficiente, superando i limiti riscontrati con soluzioni basate su cloud.

Configurazione hardware e ottimizzazioni

Il sistema utilizzato è un Lenovo Legion equipaggiato con un processore Intel i9-14900HX (con E-core disabilitati) e 32GB di RAM DDR5. Per ottimizzare le prestazioni del modello, l'utente ha impiegato llama.cpp con parametri specifici:

-ngl 99
--n-cpu-moe 40
-c 192000
-t 12
-tb 16
-b 4096
--ubatch-size 2048
--flash-attn on
--cache-type-k q8_0
--cache-type-v q8_0
--mlock

Queste impostazioni permettono di raggiungere circa 700 token/s durante la fase di elaborazione del prompt e 42 token/s per la generazione dei token. L'utente sta valutando se questa configurazione locale sia preferibile rispetto all'utilizzo di modelli più piccoli e veloci ospitati su cloud, considerando che la privacy dei dati non è una priorità assoluta nel suo caso d'uso.

Qwen 3.5 35B: inference locale con 8GB di VRAM

Inference LLM locale con risorse limitate

Configurazione hardware e ottimizzazioni

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Inference AI locale: anche senza GPU è possibile

Workstation LLM locale con 6 GPU: scalabilità e orchestrazione

LLM a 10 token/s su un i3 di 8a generazione: si può fare!