Apple svela CoreAI: un nuovo orizzonte per l'inference on-device

Durante la recente Worldwide Developers Conference (WWDC), Apple ha annunciato CoreAI, un nuovo framework che promette di ridefinire l'inference di Large Language Models (LLM) direttamente sui dispositivi equipaggiati con Apple Silicon. Questa novità, che sembra essere passata inosservata a molti, si posiziona come un successore di CoreML e un'alternativa alle soluzioni esistenti come MLX, llama.cpp e PyTorch, specificamente ottimizzata per l'esecuzione on-device, in particolare su smartphone e tablet.

L'introduzione di CoreAI rappresenta un passo significativo per Apple nel consolidare le capacità di intelligenza artificiale all'interno del proprio ecosistema hardware. Per gli architetti di infrastrutture e i CTO che valutano strategie di deployment che privilegiano la sovranità dei dati e il controllo locale, l'approccio di Apple all'inference on-device offre un modello interessante di elaborazione distribuita, riducendo la dipendenza da servizi cloud esterni per carichi di lavoro AI sensibili.

Dettagli tecnici e capacità potenziate

CoreML, il predecessore di CoreAI, presentava limitazioni notevoli: non supportava modelli oltre pochi miliardi di parametri e offriva un pool molto ristretto di operazioni supportate. CoreAI affronta direttamente queste sfide, implicando un aggiornamento sostanziale alle operazioni dell'Apple Neural Engine (ANE), il componente hardware dedicato all'accelerazione AI sui chip Apple Silicon. Questo potenziamento è cruciale per gestire la complessità crescente degli LLM moderni.

Per l'integrazione dei modelli, i pesi devono essere convertiti tramite uno script Python, un processo simile a quello richiesto da CoreML. Sebbene l'elenco completo dei modelli supportati sia previsto per la metà del 2025, Apple ha già evidenziato la capacità di CoreAI di deployare modelli fondazionali da 20 miliardi di parametri direttamente sul dispositivo. Questo risultato è probabilmente ottenuto tramite architetture di tipo Mixture of Experts (MoE) a caricamento pigro (lazily loaded), che consentono di gestire modelli più grandi in ambienti con risorse limitate. Al momento, non sono disponibili dati sulle performance, ma è probabile che CoreAI sia inizialmente inferiore a soluzioni come MLX che sfruttano direttamente la GPU.

Implicazioni per sviluppatori e utenti finali

La possibilità di eseguire LLM complessi direttamente sui dispositivi apre nuove opportunità per gli sviluppatori, consentendo la creazione di applicazioni AI più potenti, reattive e rispettose della privacy. L'inference on-device riduce la latenza, elimina la necessità di una connessione internet costante per determinate funzionalità AI e garantisce che i dati sensibili rimangano sul dispositivo, un aspetto fondamentale per la compliance e la sovranità dei dati.

Per gli utenti finali, ciò si traduce in un'esperienza più fluida e personalizzata, con funzionalità AI che operano in tempo reale senza dipendere dalla connettività cloud. Questo approccio si allinea perfettamente con la filosofia di AI-RADAR, che enfatizza i benefici dei deployment on-premise e edge in termini di controllo, sicurezza e TCO. La capacità di eseguire modelli complessi localmente può ridurre i costi operativi a lungo termine associati all'uso intensivo di API cloud, spostando il carico computazionale sull'hardware del dispositivo.

Prospettive future e il ruolo di Apple nell'AI locale

L'introduzione di CoreAI segna una chiara direzione strategica per Apple: integrare l'intelligenza artificiale in modo profondo e nativo nei suoi prodotti. Questa mossa non solo migliora le capacità dei dispositivi Apple, ma posiziona l'azienda come un attore chiave nel panorama dell'AI distribuita, offrendo un'alternativa robusta ai modelli basati esclusivamente sul cloud. La capacità di gestire LLM da 20B parametri on-device è un traguardo significativo che potrebbe influenzare l'adozione di soluzioni AI locali in vari settori.

Per le aziende che valutano l'implementazione di carichi di lavoro AI, l'approccio di Apple evidenzia i trade-off tra performance, costi e controllo. Mentre le soluzioni cloud offrono scalabilità immediata, l'inference on-device e le architetture edge come CoreAI promettono maggiore privacy, latenza ridotta e un TCO potenzialmente inferiore per scenari specifici. AI-RADAR continua a esplorare questi framework analitici per aiutare i decision-maker a navigare le complessità del deployment di LLM on-premise e ibridi, fornendo strumenti per valutare i vincoli e le opportunità di ogni approccio.