Workstation dual RTX PRO 6000: benchmark multi-utente e contesti lunghi

Un team ha condotto dei benchmark su una workstation dotata di due schede NVIDIA RTX PRO 6000 Max-Q (192GB VRAM totali) e 1.15TB di RAM DDR5, con l'obiettivo di valutare le prestazioni in scenari multi-utente e con contesti di grandi dimensioni.

Configurazione Hardware

2x NVIDIA RTX PRO 6000 Max-Q (192GB VRAM totali)
AMD EPYC 9645 96-core/192-thread
12x DDR5 ECC RDIMM 96GB 5600 Mt/s (1152GB totali)

Modelli Testati

MiniMax-M2.1 (FP8 nativo)
MiniMax-M2.1-BF16-INT4-AWQ (quantizzato INT4)

L'analisi ha confrontato due approcci: precisione FP8 con offloading su CPU e pesi quantizzati INT4 eseguiti interamente sulla VRAM. L'obiettivo era determinare se una singola workstation potesse servire un team di 4-50 persone o gestire più agenti simultaneamente.

Risultati

I risultati indicano che il modello quantizzato INT4, eseguito esclusivamente su GPU, offre prestazioni superiori rispetto al modello FP8 che sfrutta sia CPU che GPU. Tuttavia, l'INT4 è limitato a circa 3 richieste concorrenti a causa di vincoli del KV-cache. L'FP8, invece, scala meglio con contesti ampi, pur rimanendo più lento nell'elaborazione end-to-end.

Per chi valuta deployment on-premise, esistono trade-off tra velocità e scalabilità da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Workstation dual RTX PRO 6000: benchmark multi-utente e contesti lunghi

Configurazione Hardware

Modelli Testati

Risultati

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Qwen3 Coder: performance migliorata con Llama.cpp

Qwen 3.5 35B MoE: 40+ token/s su RTX 5060 Ti con contesto 100k

Mini-cluster con 192GB di VRAM per carichi di lavoro AI locali

👥 Unisciti a 160+ appassionati di AI