Benchmark di inference LLM su iGPU Strix Halo
Un utente della community LocalLLaMA ha pubblicato i risultati di una serie di benchmark eseguiti sulla iGPU (integrated GPU) di Strix Halo, utilizzando diverse configurazioni software e build di llama.cpp. Sono stati testati ben 13 modelli LLM con 15 build differenti di llama.cpp, variando opzioni come ROCm, Vulkan, versioni gfx, hipblaslt (on/off) e rocWMMA.
L'approccio utilizzato รจ stato quello di creare immagini Docker contenenti le diverse build di llama.cpp, per evitare problemi di dipendenze e semplificare il processo di test. Alcune build hanno fallito, ma anche questi risultati sono stati considerati dati utili.
I risultati completi sono disponibili in forma di tabelle interattive, che permettono di confrontare le prestazioni delle diverse configurazioni.
Per chi valuta deployment on-premise, esistono trade-off tra performance, TCO e requisiti di compliance. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!