AMD Strix Halo: l’NPU ora funziona con ROCm, ibrido GPU+NPU per LLM locali

Quando l’hardware anticipa il software

Chi ha acquistato un portatile o mini PC con processore AMD Ryzen AI Max+ 395 – la serie Strix Halo – un anno fa sapeva di avere tra le mani silicio all’avanguardia: una APU con GPU integrata e una NPU dedicata all’intelligenza artificiale. Peccato che, fino a poco tempo fa, la NPU fosse più un ornamento che un asset utilizzabile. Il supporto via ROCm, il framework AMD per il calcolo accelerato, era praticamente inesistente per i carichi di lavoro LLM. Oggi la musica è cambiata: la community di sviluppatori e gli strumenti come Lemonade hanno dischiuso le porte dell’inference ibrida, finalmente in grado di sfruttare insieme iGPU e NPU.

La notizia, emersa in un post su Reddit, è più di una curiosità da smanettoni: segna la maturazione di una piattaforma hardware che prometteva di abbassare la barriera d’ingresso per l’esecuzione locale di modelli linguistici di grandi dimensioni. E per chi guarda al deployment on-premise con occhio attento alla sovranità dei dati e al costo totale di possesso, è un segnale forte.

La modalità ibrida: due teste per l’inference

Tecnicamente, l’NPU Strix Halo è progettata per essere velocissima nel prompt processing, quella fase in cui il modello elabora l’input iniziale. Nel frattempo, la GPU integrata può occuparsi della generazione dei token successivi. La modalità ibrida, orchestrata da Lemonade – un’interfaccia minimale ma efficace, sviluppata in collaborazione con AMD – permette di suddividere il carico tra i due acceleratori. In pratica, l’NPU smaltisce il grosso della prima passata, mentre la iGPU prosegue con la decodifica in parallelo, riducendo la latenza percepita.

Esistono già modelli ottimizzati per NPU, come i “FastFlowLM NPU”, ma la vera novità è la combinazione: non si tratta di un’alternativa, ma di un potenziamento reciproco. Secondo la documentazione AMD, la creazione di modelli ibridi richiede conversioni specifiche, e la strada non è ancora spianata per tutti i formati. I modelli GGUF, per esempio, non possono essere semplicemente trasformati in ONNX; serve un lavoro di adattamento che AMD stessa descrive in guide tecniche dedicate.

Implicazioni per il deployment on-premise: controllo, costi, sovranità

Per gli ambienti che valutano soluzioni on-premise, l’arrivo dell’NPU funzionante su piattaforme x86 è un tassello importante. Non si tratta solo di performance: il poter eseguire LLM su hardware consumer o prosumer, senza dipendere da server GPU remoti, significa mantenere il controllo totale sui dati. In settori regolamentati o quando la privacy è prioritaria, questo è un vantaggio competitivo non da poco.

Inoltre, il Total Cost of Ownership (TCO) di un’APU Strix Halo, rispetto a una scheda video discreta di fascia alta, è sensibilmente inferiore, e l’efficienza energetica dell’NPU nella fase di prompt processing consente di ridurre i consumi complessivi. È vero che la maturità dello stack software è ancora acerba – ROCm su hardware consumer ha avuto un percorso accidentato – ma il miglioramento osservato in pochi mesi fa ben sperare. Per chi sta già utilizzando modelli su file GGUF e Vulkan, il passaggio alla modalità ibrida potrebbe moltiplicare la resa senza investimenti aggiuntivi.

Il futuro: modelli multi-token e la strada ancora da percorrere

L’entusiasmo del post originale si spinge oltre: l’autore chiede a gran voce il supporto ai modelli con Multi-Token Prediction (MTP), come Qwen 3.6, che grazie a tecniche introdotte da Unsloth promettono un ulteriore balzo prestazionale. AMD ha già pubblicato linee guida per adattare questi modelli “a forma di processore” (new processor shapes) alla conversione ONNX, ma la strada è ancora in salita.

Rimane un dato di fatto: un computer acquistato un anno fa oggi funziona in modalità che all’epoca erano solo teoriche. È la dimostrazione che il valore di una piattaforma hardware non si esaurisce all’acquisto, ma cresce con l’evoluzione del software. Per AI-RADAR, che segue da vicino le scelte di deployment locale, questa è una conferma: investire in silicio lungimirante può ripagare nel tempo, a patto di avere la pazienza di attendere l’allineamento degli strumenti. La prossima sfida sarà la standardizzazione dei modelli ibridi e la loro condivisione su piattaforme come HuggingFace, per trasformare un successo da smanettoni in una leva industriale.