Un appassionato di LLM ha condiviso la propria esperienza nella semplificazione del suo homelab, riducendo il numero di modelli in esecuzione da tre a uno, il tutto su un sistema basato su Ryzen AI MAX+ con 128GB di RAM e 96GB di VRAM condivisa tramite Vulkan/RADV.
Configurazione Precedente
La configurazione originale prevedeva tre modelli distinti:
- GLM-4.7-Flash (30B MoE, 3B attivo): per attività quotidiane come la gestione delle email.
- Qwen3.5-35B-A3B (35B MoE, 3B attivo): per ragionamento e sviluppo.
- Qwen3-VL-8B (8B dense): per visione artificiale e gestione di flussi video.
Il passaggio a un singolo modello è stato motivato dalla complessità di gestire il routing tra i diversi modelli.
Nuova Configurazione
La nuova configurazione si basa su un singolo modello:
- Qwen3.5-122B-A10B UD-IQ3_S (10B attivo, 44GB).
- VL-8B mantenuto separato per evitare conflitti con la gestione delle telecamere.
- Nomic-embed per il retrieval aumented generation (RAG).
Questo setup gestisce attività come la classificazione delle email, applicazioni per la gestione alimentare, dashboard finanziari, rilevamento persone tramite telecamere, Open WebUI, SearXNG, OpenCode e un agente OpenClaw.
Scoperte Inaspettate
- La quantization IQ3 ha ottenuto risultati simili a Q4_K_M con metà della VRAM e maggiore velocità.
- I modelli MoE si sono dimostrati più efficienti rispetto ai modelli densi, specialmente in scenari concorrenti.
- Le quantizzazioni dinamiche Unsloth funzionano correttamente su Strix Halo.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!