Un team ha condotto dei benchmark su una workstation dotata di due schede NVIDIA RTX PRO 6000 Max-Q (192GB VRAM totali) e 1.15TB di RAM DDR5, con l'obiettivo di valutare le prestazioni in scenari multi-utente e con contesti di grandi dimensioni.

Configurazione Hardware

  • 2x NVIDIA RTX PRO 6000 Max-Q (192GB VRAM totali)
  • AMD EPYC 9645 96-core/192-thread
  • 12x DDR5 ECC RDIMM 96GB 5600 Mt/s (1152GB totali)

Modelli Testati

  • MiniMax-M2.1 (FP8 nativo)
  • MiniMax-M2.1-BF16-INT4-AWQ (quantizzato INT4)

L'analisi ha confrontato due approcci: precisione FP8 con offloading su CPU e pesi quantizzati INT4 eseguiti interamente sulla VRAM. L'obiettivo era determinare se una singola workstation potesse servire un team di 4-50 persone o gestire piรน agenti simultaneamente.

Risultati

I risultati indicano che il modello quantizzato INT4, eseguito esclusivamente su GPU, offre prestazioni superiori rispetto al modello FP8 che sfrutta sia CPU che GPU. Tuttavia, l'INT4 รจ limitato a circa 3 richieste concorrenti a causa di vincoli del KV-cache. L'FP8, invece, scala meglio con contesti ampi, pur rimanendo piรน lento nell'elaborazione end-to-end.

Per chi valuta deployment on-premise, esistono trade-off tra velocitร  e scalabilitร  da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.