Ottimizzare l'energia per l'AI: un nuovo paradigma di deployment
Il rapido aumento della domanda di potenza da parte dei data center, spinto dall'espansione dei Large Language Models (LLM) e di altre applicazioni di intelligenza artificiale, sta costringendo l'industria a ripensare le proprie strategie di deployment. La ricerca di soluzioni energetiche efficienti e flessibili è diventata una priorità assoluta. In questo contesto, Nvidia e i suoi collaboratori stanno lanciando un progetto pilota innovativo che mira a costruire micro data center in prossimità delle sottostazioni elettriche, operando in concerto per ottimizzare l'utilizzo dell'energia disponibile.
Questa iniziativa, che prevede la costruzione di circa 25 piccoli data center, ciascuno con una capacità compresa tra 5 e 20 megawatt, sarà distribuita presso cinque diverse utility negli Stati Uniti. L'idea centrale è quella di spostare dinamicamente i carichi di lavoro computazionali tra i vari siti in base alla disponibilità di energia. Se una sottostazione dovesse essere sovraccarica o subire un'interruzione, il carico verrebbe reindirizzato a un data center adiacente a una sottostazione con capacità inutilizzata, garantendo continuità e efficienza. Nvidia collabora con InfraPartners per la costruzione, Prologis per i servizi immobiliari e l'organizzazione no-profit EPRI (Electric Power Research Institute) per la ricerca e lo sviluppo.
Flessibilità energetica e infrastruttura distribuita
L'approccio proposto da Nvidia e dai suoi partner risponde a un'esigenza crescente: la capacità di ottenere rapidamente energia dalla rete, una risorsa sempre più preziosa. Ben Sooter, direttore di Agentic AI Initiatives e Distributed AI Architecture presso EPRI, sottolinea come la disponibilità media di potenza inutilizzata presso le singole sottostazioni sia di circa 5 MW, con un massimo di 20 MW. Sebbene queste cifre siano troppo esigue per i grandi operatori di data center tradizionali, la creazione di una flotta di strutture di queste dimensioni, gestite come un'unica entità più grande, offre vantaggi significativi. Questa strategia può raddoppiare la potenza complessiva disponibile, spostando i carichi dalle sottostazioni sovraccariche a quelle con maggiore margine.
Marc Spieler, direttore senior per l'energia di Nvidia, evidenzia il potenziale su larga scala: con 55.000 sottostazioni negli Stati Uniti, anche solo 5, 10 o 20 MW di capacità inutilizzata per ciascuna si sommano rapidamente. Questa flessibilità energetica non solo permette di sfruttare meglio l'infrastruttura esistente, ma può anche accelerare i tempi di connessione alla rete per i nuovi data center, evitando le lunghe attese (fino a un decennio) spesso necessarie per l'approvazione di nuove connessioni o la costruzione di nuove centrali elettriche. Inoltre, la vicinanza alle sottostazioni riduce la necessità di nuove linee elettriche e infrastrutture di rete, sfruttando le linee in fibra ottica già presenti per la connettività ad alta velocità.
Il vantaggio dell'Inference distribuita
La fattibilità di questa strategia di deployment distribuito dipende in gran parte dal tipo di carico di lavoro AI. L'addestramento (training) dei modelli AI, come i Large Language Models, richiede data center massivi con GPU strettamente interconnesse tramite tecnicie come NVLink e InfiniBand di Nvidia. Ad esempio, il modello Llama 3.1 403B di Meta ha richiesto circa due mesi e mezzo di training su 16.000 GPU. Distribuire un carico di training tra una flotta di mini data center non sarebbe pratico a causa dei requisiti di interconnessione ad alta velocità. Tuttavia, i carichi di training possono essere messi in pausa per brevi periodi per ridurre il consumo energetico durante i picchi di domanda.
Al contrario, l'Inference, ovvero l'utilizzo di un modello addestrato per generare risposte o immagini, è molto più adatto a data center più piccoli e distribuiti. L'Inference non richiede lo stesso numero di GPU o la stessa complessità di networking del training, poiché elabora singole query utente senza la necessità di una coordinazione su larga scala tra blocchi di dati. Valerie Crafton, vicepresidente senior di strategia e operazioni presso Mod42, sottolinea che l'Inference è uno dei pochi carichi di lavoro che possono essere instradati dinamicamente, permettendo di allineare la computazione con la disponibilità di energia. Nvidia ed EPRI prevedono che i carichi di lavoro dovranno essere spostati tra le sottostazioni solo circa lo 0,1% del tempo. Questa “seconda ondata computazionale” di data center più piccoli per l'Inference è attesa con crescente domanda entro il 2027.
Implicazioni per i deployment on-premise e la sovranità dei dati
L'approccio della distributed inference e dei micro data center ha implicazioni significative per le organizzazioni che considerano deployment on-premise o ibridi. La capacità di sfruttare la capacità energetica inutilizzata della rete e di distribuire i carichi di lavoro può ridurre il Total Cost of Ownership (TCO) e migliorare la resilienza operativa. Per le aziende che necessitano di mantenere la sovranità dei dati o operare in ambienti air-gapped, la possibilità di controllare fisicamente la posizione dei propri data center e di ottimizzare l'infrastruttura energetica locale diventa un fattore critico. Questo modello offre un'alternativa ai grandi data center centralizzati, spesso situati in regioni con infrastrutture energetiche già sature.
La crescente domanda di energia da parte dei data center, che secondo le stime di EPRI potrebbe rappresentare il 9-17% della generazione elettrica statunitense entro il 2030, rende queste soluzioni ancora più urgenti. Per chi valuta deployment on-premise, l'analisi dei trade-off tra costi iniziali, flessibilità operativa e accesso all'energia è fondamentale. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti, fornendo strumenti per comprendere come strategie come la distributed inference possano influenzare le decisioni di deployment e la gestione delle risorse. L'evoluzione verso data center più piccoli e flessibili rappresenta un passo importante verso un'infrastruttura AI più sostenibile e adattabile alle esigenze future.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!