Un team ha condotto dei benchmark su una workstation dotata di due schede NVIDIA RTX PRO 6000 Max-Q (192GB VRAM totali) e 1.15TB di RAM DDR5, con l'obiettivo di valutare le prestazioni in scenari multi-utente e con contesti di grandi dimensioni.
Configurazione Hardware
- 2x NVIDIA RTX PRO 6000 Max-Q (192GB VRAM totali)
- AMD EPYC 9645 96-core/192-thread
- 12x DDR5 ECC RDIMM 96GB 5600 Mt/s (1152GB totali)
Modelli Testati
- MiniMax-M2.1 (FP8 nativo)
- MiniMax-M2.1-BF16-INT4-AWQ (quantizzato INT4)
L'analisi ha confrontato due approcci: precisione FP8 con offloading su CPU e pesi quantizzati INT4 eseguiti interamente sulla VRAM. L'obiettivo era determinare se una singola workstation potesse servire un team di 4-50 persone o gestire piรน agenti simultaneamente.
Risultati
I risultati indicano che il modello quantizzato INT4, eseguito esclusivamente su GPU, offre prestazioni superiori rispetto al modello FP8 che sfrutta sia CPU che GPU. Tuttavia, l'INT4 รจ limitato a circa 3 richieste concorrenti a causa di vincoli del KV-cache. L'FP8, invece, scala meglio con contesti ampi, pur rimanendo piรน lento nell'elaborazione end-to-end.
Per chi valuta deployment on-premise, esistono trade-off tra velocitร e scalabilitร da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!