Chip AI cinesi: sette aziende già sul mercato con GPU classe H100/H200

Ogni giorno carico modelli open cinesi su un cluster con quattro RTX 3090. E più li vedo ottimizzati per hardware domestico, più mi chiedo su cosa girino davvero. La risposta è una mappa di sette aziende che spediscono acceleratori AI con specifiche paragonabili a H100 e H200. La maggior parte è sbarcata in borsa negli ultimi sei mesi. Non è un esperimento: è produzione di massa.

I tre draghi e i quattro serpenti

La classificazione locale divide i player in "draghi" (big tech full-stack) e "serpenti" (pure-play appena quotate). Huawei è il drago dominante: solo l'anno scorso ha consegnato 812mila schede AI, il 49% della fornitura domestica, con memoria HBM propria e fabbricazione interna. Il suo Ascend 950 punta a competere con H200. Alibaba, altro drago, presenta un server con 16 GPU da 96 GB ciascuna: 1,5 TB di VRAM in un unico chassis, abbastanza per tenere un modello frontier in BF16 completamente on-premise.

I serpenti, come MetaX, colpiscono per il DNA: fondato dall'ex leadership GPU globale di AMD, con sede a Shenzhen, ha moltiplicato i ricavi di 3.800 volte in tre anni. Diverse altre startup hanno radici in NVIDIA e AMD.

Lo spostamento della produzione

La produzione si è spostata da TSMC a SMIC, e le quote di mercato di NVIDIA in Cina sono scese dal 95% al 55% in due anni. La combinazione di hardware domestico avanzato e modelli open sta convergendo rapidamente: il metallo e i Large Language Models si parlano la stessa lingua.

Implicazioni per il deployment on-premise

Per chi valuta deployment on-premise, questa tendenza segna un allargamento delle opzioni hardware oltre i soli GPU NVIDIA. Server ad alta densità di VRAM come quello di Alibaba permettono di caricare interamente modelli frontier senza dover ricorrere al cloud, mantenendo il totale controllo sui dati e riducendo la dipendenza da fornitori esteri. Tuttavia, le incognite restano: supporto software, maturità dei driver, compatibilità con i framework di inference più diffusi come vLLM o llama.cpp. AI-RADAR offre strumenti analitici per pesare questi trade-off, soprattutto per chi deve calcolare il TCO reale di stack basati su hardware non-NVIDIA.

Prospettive future

La convergenza tra modelli open e acceleratori locali potrebbe ridefinire gli equilibri del mercato AI enterprise, soprattutto per organizzazioni con requisiti stringenti di sovranità dei dati. Ma la domanda chiave è se queste GPU sapranno conquistare la fiducia degli sviluppatori oltre i confini nazionali. Per ora, la Cina ha dimostrato di saper costruire hardware competitivo e di portarlo sul mercato in tempi rapidi, mentre il resto del mondo osserva.