Homelab LLM: da tre modelli a uno su Ryzen AI MAX+

Un appassionato di LLM ha condiviso la propria esperienza nella semplificazione del suo homelab, riducendo il numero di modelli in esecuzione da tre a uno, il tutto su un sistema basato su Ryzen AI MAX+ con 128GB di RAM e 96GB di VRAM condivisa tramite Vulkan/RADV.

Configurazione Precedente

La configurazione originale prevedeva tre modelli distinti:

GLM-4.7-Flash (30B MoE, 3B attivo): per attività quotidiane come la gestione delle email.
Qwen3.5-35B-A3B (35B MoE, 3B attivo): per ragionamento e sviluppo.
Qwen3-VL-8B (8B dense): per visione artificiale e gestione di flussi video.

Il passaggio a un singolo modello è stato motivato dalla complessità di gestire il routing tra i diversi modelli.

Nuova Configurazione

La nuova configurazione si basa su un singolo modello:

Qwen3.5-122B-A10B UD-IQ3_S (10B attivo, 44GB).
VL-8B mantenuto separato per evitare conflitti con la gestione delle telecamere.
Nomic-embed per il retrieval aumented generation (RAG).

Questo setup gestisce attività come la classificazione delle email, applicazioni per la gestione alimentare, dashboard finanziari, rilevamento persone tramite telecamere, Open WebUI, SearXNG, OpenCode e un agente OpenClaw.

Scoperte Inaspettate

La quantization IQ3 ha ottenuto risultati simili a Q4_K_M con metà della VRAM e maggiore velocità.
I modelli MoE si sono dimostrati più efficienti rispetto ai modelli densi, specialmente in scenari concorrenti.
Le quantizzazioni dinamiche Unsloth funzionano correttamente su Strix Halo.

Homelab LLM: da tre modelli a uno su Ryzen AI MAX+

Configurazione Precedente

Nuova Configurazione

Scoperte Inaspettate

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

AMD Ryzen AI Max: Incremento di velocità con llama.cpp e ROCm

Addestramento MoE: 12x più veloce con Unsloth e VRAM ridotta

GLM-4.7-Flash: benchmark da capogiro su H200 e RTX 6000 Ada

👥 Unisciti a 160+ appassionati di AI