Ottimizzazione dell'Inference AI: la collaborazione tra NVIDIA e Google Cloud
Durante la conferenza Google Cloud Next, Google e NVIDIA hanno delineato una roadmap hardware e software volta ad affrontare l'onere economico dell'Inference AI su larga scala. L'obiettivo primario è rendere l'implementazione di Large Language Models (LLM) e altri carichi di lavoro AI più accessibile ed efficiente per le aziende, sia in termini di costi che di prestazioni.
Questa partnership strategica mira a fornire un'infrastruttura integrata, capace di supportare le esigenze crescenti delle imprese che adottano l'intelligenza artificiale, dalla fase di training al Deployment in produzione. Le soluzioni presentate si concentrano su un'architettura co-progettata per massimizzare l'efficienza energetica e la velocità di elaborazione, elementi cruciali per il calcolo accelerato moderno.
Dettagli tecnici: A5X, Rubin e Blackwell per prestazioni e sicurezza
Le aziende hanno introdotto le nuove istanze bare-metal A5X, che operano su sistemi NVIDIA Vera Rubin NVL72 rack-scale. Questa architettura, frutto di una co-progettazione hardware e software, è progettata per offrire costi di Inference per token fino a dieci volte inferiori rispetto alle generazioni precedenti, raggiungendo contemporaneamente un Throughput di token per megawatt dieci volte superiore. Per chi valuta deployment on-premise, questi dati sono fondamentali per un'analisi del TCO (Total Cost of Ownership) accurata, considerando sia i costi operativi che quelli energetici.
Per gestire la connettività di migliaia di processori e prevenire ritardi di elaborazione, le istanze A5X abbinano le NVIDIA ConnectX-9 SuperNICs con la tecnicia di rete Google Virgo. Questa configurazione consente di scalare fino a 80.000 GPU NVIDIA Rubin all'interno di un singolo cluster e fino a 960.000 GPU in un Deployment multisito. Una gestione sofisticata dei carichi di lavoro è essenziale a questa scala, poiché l'instradamento dei dati tra quasi un milione di processori paralleli richiede una sincronizzazione precisa per evitare tempi di inattività del calcolo.
Sovranità dei dati e onere operativo per l'AI agentica
Oltre alle capacità di elaborazione, la governance dei dati rimane una questione prioritaria per i Deployment aziendali. Settori altamente regolamentati, come quello finanziario e sanitario, spesso incontrano ostacoli nelle iniziative di machine learning a causa dei requisiti di sovranità dei dati e dei rischi legati all'esposizione di informazioni proprietarie. Per affrontare queste esigenze di compliance, i modelli Google Gemini, eseguiti su GPU NVIDIA Blackwell e Blackwell Ultra, sono ora disponibili in preview su Google Distributed Cloud. Questo metodo di Deployment consente alle organizzazioni di mantenere i modelli interamente all'interno dei propri ambienti controllati, insieme ai loro archivi di dati più sensibili. L'architettura integra NVIDIA Confidential Computing, un protocollo di sicurezza a livello hardware che garantisce che i modelli di training operino in un ambiente protetto, dove i prompt e i dati di Fine-tuning rimangono criptati, impedendo a terzi non autorizzati, inclusi gli operatori dell'infrastruttura cloud, di visualizzare o alterare i dati sottostanti. Per gli ambienti cloud pubblici multi-tenant, una preview delle VM G4 Confidential, equipaggiate con GPU NVIDIA RTX PRO 6000 Blackwell, introduce le stesse protezioni crittografiche, offrendo ai settori regolamentati l'accesso a hardware ad alte prestazioni senza violare gli standard di privacy dei dati. Questa release rappresenta la prima offerta di Confidential Computing basata su cloud per le GPU NVIDIA Blackwell.
La costruzione di sistemi agentici multi-step richiede la connessione di Large Language Models a complesse API, il mantenimento della sincronizzazione continua dei database vettoriali e la mitigazione attiva delle allucinazioni algoritmiche durante l'esecuzione. Per semplificare questo onere ingegneristico, NVIDIA Nemotron 3 Super è ora disponibile sulla Gemini Enterprise Agent Platform. La piattaforma fornisce agli sviluppatori strumenti per personalizzare e Deployare modelli di ragionamento e multimodali specificamente progettati per compiti agentici. Il training di questi modelli su larga scala introduce un significativo onere operativo, in particolare nella gestione del dimensionamento dei cluster e dei guasti hardware durante lunghi cicli di reinforcement learning. Google Cloud e NVIDIA hanno introdotto i Managed Training Clusters sulla Gemini Enterprise Agent Platform, che includono un'API di reinforcement learning gestita, costruita con NVIDIA NeMo RL. Questo sistema automatizza il dimensionamento dei cluster, il recupero dai guasti e l'esecuzione dei job, permettendo ai team di data science di concentrarsi sulla qualità del modello piuttosto che sulla gestione dell'infrastruttura di basso livello.
Impatti sull'ecosistema del calcolo accelerato e prospettive future
L'integrazione del machine learning nell'industria pesante e nella manifattura presenta una diversa categoria di sfide ingegneristiche. Connettere modelli digitali ai processi produttivi fisici richiede simulazioni fisiche precise, una massiccia potenza di calcolo e la standardizzazione tra formati di dati legacy. L'infrastruttura AI di NVIDIA e le librerie AI fisiche sono ora disponibili su Google Cloud, fornendo le basi per le organizzazioni per simulare e automatizzare i flussi di lavoro di produzione del mondo reale. Utilizzando le librerie NVIDIA Omniverse e il Framework Open Source NVIDIA Isaac Sim tramite Google Cloud Marketplace, gli sviluppatori possono aggirare alcune di queste problematiche di traduzione per costruire gemelli digitali fisicamente accurati e addestrare Pipeline di simulazione robotica prima del Deployment fisico. Il Deployment dei microservizi NVIDIA NIM, come il modello Cosmos Reason 2, su Google Vertex AI e Google Kubernetes Engine consente ad agenti e robot basati sulla visione di interpretare e navigare i loro ambienti fisici.
Tradurre queste specifiche hardware in ritorni finanziari quantificabili richiede di esaminare come i primi adottatori utilizzano l'infrastruttura. Il portfolio include opzioni che vanno dai rack NVL72 completi fino a VM G4 frazionarie che offrono solo un ottavo di GPU, consentendo ai clienti di dimensionare con precisione le capacità di accelerazione per compiti di ragionamento e elaborazione dati. OpenAI, ad esempio, utilizza l'Inference su larga scala sui sistemi NVIDIA GB300 e GB200 NVL72 su Google Cloud per gestire carichi di lavoro esigenti, incluse le operazioni di ChatGPT. Questa collaborazione tra NVIDIA e Google Cloud mira a fornire una base di calcolo progettata per far progredire agenti sperimentali e simulazioni in sistemi di produzione che proteggono flotte e ottimizzano fabbriche nel mondo fisico, offrendo flessibilità e controllo essenziali per i decision-maker tecnici.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!