L'ottimizzazione LLM on-premise: il caso StepFun 3.7 Flash su AMD Strix Halo

Il panorama dei Large Language Models (LLM) è in continua evoluzione, con una crescente attenzione verso le soluzioni di deployment on-premise che garantiscono maggiore controllo, sovranità dei dati e, potenzialmente, un Total Cost of Ownership (TCO) più vantaggioso. In questo contesto, l'ottimizzazione delle performance su hardware locale diventa cruciale. Un recente benchmark, condotto su un sistema equipaggiato con un'APU AMD Strix Halo, ha messo in luce i benefici della tecnicia Multi-Token Prediction (MTP) applicata al modello StepFun 3.7 Flash.

Questa analisi offre spunti significativi per CTO, DevOps lead e architetti di infrastruttura che valutano alternative self-hosted per i carichi di lavoro AI. I risultati dimostrano come sia possibile ottenere miglioramenti tangibili nella velocità di inference e nell'efficienza energetica, aspetti fondamentali per la sostenibilità e la scalabilità dei deployment locali.

Dettagli Tecnici e Architettura del Benchmark

Il sistema utilizzato per il benchmark si basa su un'APU AMD Ryzen AI Max+ 395, dotata di una GPU integrata Radeon 8060S (architettura gfx1151). La configurazione hardware include 128 GB di memoria unificata LPDDR5X, con 4 GB di VRAM dedicata UMA e un "GTT ceiling" di 112 GiB, indicando una notevole flessibilità nella gestione della memoria per i carichi di lavoro AI. Il sistema operativo è Ubuntu 25.04, con un kernel Linux 6.18.1 e driver Mesa/RADV 25.2.8.

Il modello principale testato è StepFun Step-3.7-Flash UD-IQ4_XS, un modello Mixture-of-Experts (MoE) con circa 200 miliardi di parametri totali e circa 11 miliardi di parametri attivi per token. La sua dimensione su disco è di circa 88.79 GiB. Per l'implementazione MTP, è stato utilizzato un modello "draft" Step-3.7-Flash-MTP-Q8_0.gguf da circa 3.5 GiB. Il backend di inference è una build patchata di llama.cpp con supporto Vulkan/RADV, configurata con un contesto di 12.288 token e parametri MTP specifici (DRAFT_N=2, PMIN=0.60, UBATCH=512).

Analisi delle Performance e Vantaggi del MTP

I risultati del benchmark evidenziano un impatto positivo e misurabile dell'MTP sulla fase di decode, ovvero la generazione di token. La velocità di decode è passata da 20.4 token/secondo (senza MTP) a 26.0 token/secondo (con MTP), segnando un incremento del 27.5%. Questo miglioramento è particolarmente rilevante poiché la velocità di prefill (elaborazione del prompt iniziale) è rimasta sostanzialmente invariata, a circa 211-212 token/secondo, indicando che l'MTP ottimizza la generazione senza introdurre latenze iniziali.

In termini di efficienza complessiva, il tempo totale normalizzato per una sequenza di 1150 token in input e 2000 in output si è ridotto del 20.8%, passando da 103.4 secondi a 82.4 secondi. Un altro dato significativo riguarda il consumo energetico: durante la fase di decode, la potenza assorbita dal socket è diminuita di circa il 14%, da 85 W a 73 W. Questo aspetto è cruciale per i deployment on-premise, dove il TCO include anche i costi operativi legati all'energia. L'efficienza dell'MTP è confermata anche dalla percentuale di accettazione dei token "drafted", che si attesta su un elevato 84.7%.

Implicazioni per i Deployment On-Premise e le Scelte Strategiche

I dati raccolti da questo benchmark offrono una prospettiva interessante per le organizzazioni che considerano l'implementazione di LLM on-premise. Raggiungere una velocità di decode di 26 token/secondo su un modello MoE da 200 miliardi di parametri con un'APU di fascia alta come l'AMD Strix Halo dimostra la fattibilità di eseguire carichi di lavoro complessi localmente. Questo è particolarmente vantaggioso per scenari che richiedono elevata sovranità dei dati, ambienti air-gapped o dove la latenza di rete verso il cloud è un fattore critico.

Il confronto con altri modelli, come Qwen 3.5 122B MTP, che raggiunge 26.7 token/secondo, suggerisce che StepFun MTP si posiziona in una fascia di performance simile pur gestendo un modello con un numero totale di parametri significativamente maggiore. Questo solleva la questione del trade-off tra la qualità del modello e la velocità di inference, un aspetto che i decision-maker devono valutare attentamente in base alle proprie esigenze specifiche. Per chi valuta deployment on-premise, AI-RADAR offre framework analitici su /llm-onpremise per valutare i trade-off tra performance, TCO e requisiti di compliance, fornendo strumenti per decisioni informate senza raccomandazioni dirette.