Due colossi dei semiconduttori stanno riscrivendo le regole dell’esecuzione locale dei Large Language Models. Mentre Qualcomm accelera con la piattaforma Dragonfly, pensata per l’inference on-device e l’elaborazione a basso consumo, MediaTek non resta a guardare: i suoi legami con fornitori di TPU e le competenze interne sugli ASIC le consentono di restare agganciata a un treno che corre veloce.

Non è una semplice gara di velocità. Dietro l’accelerazione hardware per LLM in locale c’è un cambio di paradigma silenzioso ma profondo: spostare l’inference dal cloud ai dispositivi significa ridurre la latenza, eliminare la dipendenza dalla connettività e, soprattutto, tenere i dati sotto controllo diretto. In settori regolamentati o in contesti aziendali che non possono permettersi di inviare prompt sensibili a data center esterni, l’esecuzione edge diventa l’unica strada percorribile per adottare l’AI generativa senza compromettere la sovranità informativa.

Qualcomm ha costruito la propria proposta su un’integrazione stretta tra CPU, GPU e unità di elaborazione neurale, con l’obiettivo dichiarato di far girare modelli quantizzati a precisione ridotta (INT8, FP16) in ambienti con pochi watt di budget termico. Dragonfly è la sintesi commerciale di questo lavoro: un ecosistema di strumenti e librerie che punta a ridurre la frizione per chi sviluppa applicazioni basate su LLM, dal fine-tuning leggero fino all’inference a bordo macchina. I numeri precisi di throughput e latenza sono ancora sotto embargo, ma la direzione è chiara: si cerca di portare sulla periferia della rete capacità di ragionamento testuale che fino a ieri richiedevano GPU discrete con centinaia di GB di VRAM.

MediaTek segue una rotta diversa. L’azienda taiwanese ha investito in unità APU (AI Processing Unit) dedicate e, secondo le voci raccolte da DIGITIMES, sta stringendo accordi strategici per integrare TPU custom e acceleratori ASIC progettati ad hoc per carichi AI. Questo approccio ibrido – un mix di IP proprietario e collaborazioni esterne – le permette di offrire soluzioni modulari che possono scalare dal mobile ai dispositivi IoT industriali, mantenendo un profilo di costo competitivo. Non è un dettaglio trascurabile: per un’organizzazione che valuta un deployment on-premise distribuito su decine o centinaia di nodi, il TCO dell’hardware di inference diventa la variabile decisiva.

La partita non si gioca solo sulle specifiche tecniche. C’è un tema di maturità dell’ecosistema software. Qualcomm ha dalla sua anni di esperienza con il framework Snapdragon e una community di sviluppatori abituata a lavorare sui suoi DSP. MediaTek, dal canto suo, sta accelerando sul supporto a ONNX Runtime e TensorFlow Lite, cercando di colmare il divario nei tool di deployment. Per chi sviluppa pipeline di AI on-premise, la qualità degli strumenti di sviluppo e la facilità di integrazione con i sistemi di orchestrazione esistenti contano quanto i TOPS dichiarati.

In questo framework, la posta in gioco va oltre la semplice competizione tra fornitori. La disponibilità di chip sempre più capaci di eseguire LLM in locale allarga il perimetro dell’on-premise computing, rendendo plausibili scenari prima inimmaginabili: assistenti vocali completamente air-gapped, edge server per l’analisi di documenti sensibili, gateway industriali che processano linguaggio naturale senza mai uscire dalla rete di fabbrica. Per chi prende decisioni di architettura, servono strumenti per pesare i trade-off tra potenza computazionale, vincoli energetici e requisiti di conformità. Su AI-RADAR, l’analisi dei framework per il self-hosting di LLM offre una bussola per orientarsi in queste scelte, senza cadere nella trappola delle mode del momento.