MiniMax M3 on-premise: 19 token/s su 8 MI50, ma gli agenti sono ancora lontani

Un utente ha messo alla prova il modello LLM MiniMax M3 su un parco di GPU AMD MI50, schede datacenter del 2018 dotate di 16 GB di VRAM ciascuna. I risultati, pubblicati su Reddit, dimostrano che con la giusta ottimizzazione e una quantization aggressiva a 4 bit si possono raggiungere 19,2 token al secondo di generazione su 8 GPU, ma l’esperienza complessiva è lontana da ciò che serve per agenti di sviluppo codice. AI-RADAR legge fra le righe del benchmark e ne trae spunti per chi valuta deployment on-premise di LLM su hardware datacenter di precedente generazione.

La prova: 8 e 16 MI50 a confronto con MiniMax M3

Il test sfrutta un fork di vLLM con ROCm 7.2.1 ottimizzato per l’architettura gfx906 delle MI50, eseguito in contenitore Docker. Due le configurazioni principali:

8 GPU MI50 con il modello quantizzato MiniMax-M3-4bit-W4A16-v0 e decoding speculativo EAGLE3 a 3 token. Con un prompt di 1.000 token raggiunge 19,2 token/s in generazione e 1.005 token/s nel processing del prompt (PP). Senza multi-token prediction scende a 11,9 token/s. Il contesto massimo osservabile è di 36.597 token.
16 GPU MI50 con quantization AWQ-INT4 (MiniMax-M3-AWQ-INT4) e speculazione a 5 token. Qui la generazione arriva a 18,2 token/s con un prompt di 16.000 token, ma il PP crolla a 135 token/s, segno di un netto collo di bottiglia nel pre-processing. La finestra di contesto massima sale a circa 143.000 token.

Il benchmark sintetico con 2 richieste (10.000 token in input, 1.000 in output) fornisce il dato più critico: il tempo al primo token (TTFT) medio è di 73,6 secondi, con un throughput complessivo di appena 7,15 token/s. L’accettazione del decoding speculativo è del 50%, a conferma che il modello draft è ben allineato ma non basta a compensare la latenza intrinseca.

Latenza, contesto e decoding speculativo: i colli di bottiglia

Un TTFT di oltre un minuto su un prompt di neanche 16.000 token rende impraticabile qualsiasi applicazione interattiva. La ragione va cercata nell’hardware: le MI50, pur dotate di memoria HBM2, offrono una larghezza di banda di 1 TB/s ma sono penalizzate da un bus PCIe 3.0 e da un’architettura compute (gfx906) che non riceve più ottimizzazioni aggressive nei moderni engine di inference. Lo stesso utente segnala che l’uso di uno switch PCIe a minore latenza e una migliore gestione del multi-token prediction senza overhead per ROCm potrebbero migliorare le prestazioni, insieme alla dequantization in FP16. Quello che colpisce è anche la lunghissima generazione di ragionamento: in molte risposte il modello produce catene di pensiero molto estese ancora prima di arrivare a una soluzione di codice, allungando ulteriormente i tempi percepiti.

Vecchio hardware per LLM on-premise: perché potrebbe avere senso

Per un’organizzazione che dispone già di queste GPU o che può acquistarle a basso costo sul mercato dell’usato, il deployment on-premise preserva la sovranità dei dati ed evita i ricorrenti costi di inference cloud. Una singola MI50 ha un TDP di 300 watt; un nodo con 16 schede porta il consumo a quasi 5 kW solo per le GPU, un costo operativo non trascurabile ma spesso inferiore all’uso continuativo di API cloud per carichi di lavoro intensivi. Il compromesso è chiaro: l’hardware datacenter di vecchia generazione può gestire quantization a 4 bit e modelli da decine di miliardi di parametri, ma con latenza e throughput poco adatti a scenari interattivi complessi come l’agentic coding. Per elaborazioni batch, riassunti o analisi di documenti dove il tempo di risposta non è critico, invece, le prestazioni osservate potrebbero essere sufficienti.

Oltre il test: prospettive di ottimizzazione

Il caso di MiniMax M3 sulle MI50 mostra che c’è ancora margine: software più maturo per ROCm su gfx906, una topologia PCIe ottimizzata e l’affinamento della dequantization potrebbero spremere qualche token in più. Tuttavia il gap con soluzioni basate su GPU più recenti (ad esempio NVIDIA A100 o le stesse AMD MI200) resta ampio, soprattutto nella capacità di elaborare prompt lunghi a velocità accettabile. Per chi progetta infrastrutture di inference on-premise, questo test è un promemoria: le schede datacenter di qualche anno fa possono ancora servire, ma solo dopo un’attenta valutazione dei carichi di lavoro e dei compromessi, in particolare quando la finestra di contesto e la reattività sono fattori determinanti.