Ascend GX10 o DGX Spark: la scommessa dell'inference locale

Non è un fulmine, ma per chi vuole il controllo completo del proprio stack AI, 15 token al secondo su un contesto di 128.000 token possono diventare più che accettabili. È il dilemma pratico di un utente del subreddit LocalLLaMA, che sotto il nickname chikengunya chiede alla community se valga la pena investire in quattro GPU Ascend GX10 (o NVIDIA DGX Spark) per prepararsi all'arrivo di promettenti modelli open-source, tra cui un misterioso “Fable 5” atteso tra dicembre e l'anno prossimo.

Numeri che fanno riflettere

I test riportati riguardano GLM5.2, un LLM sviluppato da Zhipu AI e molto diffuso in Cina, eseguito su quattro acceleratori Ascend GX10 (l'utente cita anche la variante DGX Spark). La fase di elaborazione del prompt viaggia a 400-500 token al secondo, mentre la generazione delle risposte si attesta attorno ai 15 token/s, il tutto con una finestra di contesto di 128k token. Numeri lontani dalle prestazioni di un datacenter, ma inferiori solo in apparenza se si attiva la quantization: il modello compresso può girare più rapidamente, e chi cerca hardware on-premise spesso non ha bisogno del singolo millisecondo, ma di un sistema stabile, prevedibile e sotto il proprio diretto controllo.

Il contatore della corrente segna 1000 Watt di assorbimento per l'intero sistema, un dato che non spaventa l'autore del thread: “1000W non mi fanno paura”. Un costo operativo non trascurabile, che però va pesato con l'assenza di canoni mensili per API cloud e la certezza della proprietà del dato.

Perché comprare adesso hardware per un modello che non esiste

La domanda di chikengunya è sintomatica di un cambiamento di mentalità tra gli sviluppatori e le aziende che guardano con interesse il deployment on-premise. La logica è semplice: i modelli open-source avanzano a ritmi serrati e il “Fable 5” citato – probabilmente un riferimento a una futura release di un LLM di grandi dimensioni – potrebbe arrivare in tempi relativamente brevi. Avere l'hardware già collaudato ed efficiente permetterebbe di non rincorrere il mercato dell'usato o attendere nuove forniture quando la domanda esploderà.

La scelta ricade su soluzioni cinesi (Huawei Ascend) o sulla nuovissima DGX Spark di NVIDIA, entrambe pensate per l'inference AI in ambiente locale. Sebbene le schede Ascend siano meno comuni in Occidente, stanno diventando un'alternativa concreta grazie alle restrizioni all'export che hanno limitato la disponibilità di GPU NVIDIA in alcuni mercati. Per chi cerca indipendenza, anche il “silicio” comincia a fare la differenza.

Il trade-off tra velocità e sovranità

Il dato dei 15 token al secondo non va idealizzato: si tratta di una velocità di lettura quasi doppia rispetto al ritmo di consumo umano, ma in applicazioni interattive o di chatbot può risultare al limite dell'usabilità. Tuttavia, contesti come l'elaborazione batch, l'analisi documentale o la generazione di codice non richiedono streaming in tempo reale: in questi scenari, un cluster da quattro GPU con quantization attiva può rappresentare un compromesso onesto.

Il vero valore, per il target di AI-RADAR, è la sovranità dei dati e la prevedibilità dei costi. Nessun dato lascia il perimetro aziendale (o il garage dello sviluppatore), nessuna sorpresa in bolletta per chiamate API impreviste, nessun vendor lock-in sui modelli as-a-service. E se la bolletta elettrica sale a 1000W fissi, è un prezzo calcolabile con precisione.

La prospettiva per i deployment locali

L'interesse verso configurazioni come quella discussa nel thread conferma che lo spazio dell'AI on-premise non è solo una nicchia per grandi imprese. Scatole come DGX Spark e i sistemi Ascend GX10 abbassano la soglia d'ingresso tecnica (e, in prospettiva, economica) per chi vuole sperimentare con LLM auto-ospitati. La domanda non è più “se” l'inference locale sia possibile, ma “a quali condizioni di prestazioni e potenza”.

Nel frattempo, la community testa, confronta e scambia configurazioni. Il thread di chikengunya è l'istantanea di un settore in ebollizione, dove la scelta dell'hardware non segue più solo i benchmark, ma una strategia di medio periodo. Un segnale da non sottovalutare per chiunque stia valutando un investimento in infrastruttura AI.