Un utente ha segnalato un notevole incremento nella velocità di elaborazione dei prompt utilizzando llama.cpp con ROCm su una piattaforma Strix Halo, equipaggiata con Ryzen AI Max. I test, eseguiti con la versione modificata di llama.cpp-rocm, mostrano un miglioramento variabile a seconda del modello.
Incrementi di Performance
I risultati indicano un aumento di velocità che varia dal 7% al 132% a seconda del modello LLM utilizzato. In particolare, modelli come GPT-OSS-120B-MXFP4 hanno mostrato un incremento del 132%, mentre altri come GLM4.7-Flash-UD-Q4_K_XL hanno beneficiato di un aumento più modesto, pari al 7%. Nemotron-3-Nano-30B-A3B-Q8_0 e Qwen3-Coder-Next-MXFP4-MOE hanno registrato rispettivamente un +98% e un +77%.
Dettagli e Avvertenze
L'utente che ha effettuato i test ha utilizzato un sistema AMD Ryzen AI Max con Radeon 8060S. È importante notare che, come evidenziato nei commenti alla segnalazione originale, l'incremento di performance potrebbe essere legato a un bug temporaneo. L'autore stesso del post ha successivamente aggiornato la discussione, indicando un ritorno alle performance precedenti.
Per chi valuta deployment on-premise, esistono trade-off tra performance, costi e controllo dei dati. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!