Un utente ha condiviso la propria esperienza nell'eseguire il modello Qwen-Coder-Next su una piattaforma Strix Halo utilizzando ROCm.
Dettagli della configurazione
Il test è stato condotto utilizzando llamacpp-rocm b1170, con una dimensione di contesto impostata a 16k. Sono stati utilizzati i parametri --flash-attn on --no-mmap per ottimizzare le prestazioni.
Questo risultato dimostra la fattibilità di eseguire modelli di linguaggio di grandi dimensioni, come Qwen-Coder-Next (80B con 3B attivi), su hardware consumer con ROCm. Per chi valuta deployment on-premise, esistono trade-off da considerare, e AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!