Un utente ha messo alla prova il modello LLM MiniMax M3 su un parco di GPU AMD MI50, schede datacenter del 2018 dotate di 16 GB di VRAM ciascuna. I risultati, pubblicati su Reddit, dimostrano che con la giusta ottimizzazione e una quantization aggressiva a 4 bit si possono raggiungere 19,2 token al secondo di generazione su 8 GPU, ma l’esperienza complessiva è lontana da ciò che serve per agenti di sviluppo codice. AI-RADAR legge fra le righe del benchmark e ne trae spunti per chi valuta deployment on-premise di LLM su hardware datacenter di precedente generazione.

La prova: 8 e 16 MI50 a confronto con MiniMax M3

Il test sfrutta un fork di vLLM con ROCm 7.2.1 ottimizzato per l’architettura gfx906 delle MI50, eseguito in contenitore Docker. Due le configurazioni principali:

  • 8 GPU MI50 con il modello quantizzato MiniMax-M3-4bit-W4A16-v0 e decoding speculativo EAGLE3 a 3 token. Con un prompt di 1.000 token raggiunge 19,2 token/s in generazione e 1.005 token/s nel processing del prompt (PP). Senza multi-token prediction scende a 11,9 token/s. Il contesto massimo osservabile è di 36.597 token.
  • 16 GPU MI50 con quantization AWQ-INT4 (MiniMax-M3-AWQ-INT4) e speculazione a 5 token. Qui la generazione arriva a 18,2 token/s con un prompt di 16.000 token, ma il PP crolla a 135 token/s, segno di un netto collo di bottiglia nel pre-processing. La finestra di contesto massima sale a circa 143.000 token.

Il benchmark sintetico con 2 richieste (10.000 token in input, 1.000 in output) fornisce il dato più critico: il tempo al primo token (TTFT) medio è di 73,6 secondi, con un throughput complessivo di appena 7,15 token/s. L’accettazione del decoding speculativo è del 50%, a conferma che il modello draft è ben allineato ma non basta a compensare la latenza intrinseca.

Latenza, contesto e decoding speculativo: i colli di bottiglia

Un TTFT di oltre un minuto su un prompt di neanche 16.000 token rende impraticabile qualsiasi applicazione interattiva. La ragione va cercata nell’hardware: le MI50, pur dotate di memoria HBM2, offrono una larghezza di banda di 1 TB/s ma sono penalizzate da un bus PCIe 3.0 e da un’architettura compute (gfx906) che non riceve più ottimizzazioni aggressive nei moderni engine di inference. Lo stesso utente segnala che l’uso di uno switch PCIe a minore latenza e una migliore gestione del multi-token prediction senza overhead per ROCm potrebbero migliorare le prestazioni, insieme alla dequantization in FP16. Quello che colpisce è anche la lunghissima generazione di ragionamento: in molte risposte il modello produce catene di pensiero molto estese ancora prima di arrivare a una soluzione di codice, allungando ulteriormente i tempi percepiti.

Vecchio hardware per LLM on-premise: perché potrebbe avere senso

Per un’organizzazione che dispone già di queste GPU o che può acquistarle a basso costo sul mercato dell’usato, il deployment on-premise preserva la sovranità dei dati ed evita i ricorrenti costi di inference cloud. Una singola MI50 ha un TDP di 300 watt; un nodo con 16 schede porta il consumo a quasi 5 kW solo per le GPU, un costo operativo non trascurabile ma spesso inferiore all’uso continuativo di API cloud per carichi di lavoro intensivi. Il compromesso è chiaro: l’hardware datacenter di vecchia generazione può gestire quantization a 4 bit e modelli da decine di miliardi di parametri, ma con latenza e throughput poco adatti a scenari interattivi complessi come l’agentic coding. Per elaborazioni batch, riassunti o analisi di documenti dove il tempo di risposta non è critico, invece, le prestazioni osservate potrebbero essere sufficienti.

Oltre il test: prospettive di ottimizzazione

Il caso di MiniMax M3 sulle MI50 mostra che c’è ancora margine: software più maturo per ROCm su gfx906, una topologia PCIe ottimizzata e l’affinamento della dequantization potrebbero spremere qualche token in più. Tuttavia il gap con soluzioni basate su GPU più recenti (ad esempio NVIDIA A100 o le stesse AMD MI200) resta ampio, soprattutto nella capacità di elaborare prompt lunghi a velocità accettabile. Per chi progetta infrastrutture di inference on-premise, questo test è un promemoria: le schede datacenter di qualche anno fa possono ancora servire, ma solo dopo un’attenta valutazione dei carichi di lavoro e dei compromessi, in particolare quando la finestra di contesto e la reattività sono fattori determinanti.