Benchmark su Strix Halo con 13 modelli LLM e 15 build di llama.cpp

Benchmark di inference LLM su iGPU Strix Halo

Un utente della community LocalLLaMA ha pubblicato i risultati di una serie di benchmark eseguiti sulla iGPU (integrated GPU) di Strix Halo, utilizzando diverse configurazioni software e build di llama.cpp. Sono stati testati ben 13 modelli LLM con 15 build differenti di llama.cpp, variando opzioni come ROCm, Vulkan, versioni gfx, hipblaslt (on/off) e rocWMMA.

L'approccio utilizzato è stato quello di creare immagini Docker contenenti le diverse build di llama.cpp, per evitare problemi di dipendenze e semplificare il processo di test. Alcune build hanno fallito, ma anche questi risultati sono stati considerati dati utili.

I risultati completi sono disponibili in forma di tabelle interattive, che permettono di confrontare le prestazioni delle diverse configurazioni.

Per chi valuta deployment on-premise, esistono trade-off tra performance, TCO e requisiti di compliance. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Benchmark su Strix Halo con 13 modelli LLM e 15 build di llama.cpp

Benchmark di inference LLM su iGPU Strix Halo

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Benchmarking di GPU Tesla usate per LLM locali: analisi VRAM

GPU Intel Arc B390: ottime performance con Compute Runtime open-source

Fedora 44 Beta: Benchmark su AMD Ryzen AI Max per Desktop Framework

👥 Unisciti a 160+ appassionati di AI