64 GB di VRAM e LLM per coding: l’esperimento on-premise con Qwen 3.5 122b
Un utente Reddit con 64 GB di VRAM condivide la sua esperienza di inference locale con una versione Unsloth di Qwen 3.5 122b-a10b, quantizzato UD-IQ4_NL, finestra di contesto 100.000 token e velocità di circa 30 tok/sec. L’architettura MoE consente d...