Un cluster DGX Spark per LLM on-premise
Il panorama dell'intelligenza artificiale generativa spinge le aziende a valutare soluzioni infrastrutturali sempre più potenti e specializzate. Un recente aggiornamento da un utente della comunità ha illustrato la finalizzazione di un cluster on-premise composto da 16 unità Nvidia DGX Spark. Questo progetto evidenzia l'impegno verso architetture self-hosted, dove il controllo diretto sull'hardware e sui dati è prioritario, rispondendo alle esigenze di sovranità dei dati e TCO.
La configurazione di un sistema di tale portata richiede un'attenta pianificazione e un'esecuzione meticolosa. Sebbene l'implementazione sia stata descritta come impegnativa in termini di tempo, il processo si è rivelato più fluido del previsto. Ogni unità DGX Spark è stata configurata con una versione di Ubuntu personalizzata da Nvidia, preinstallata e pronta all'uso, semplificando alcune fasi iniziali del deployment.
Dettagli tecnici e connettività ad alta velocità
L'architettura del cluster si basa su una connettività di rete ad alta velocità. Ogni DGX Spark si collega a uno switch FS N8510 tramite un singolo cavo QSFP56. Le due interfacce NIC di ciascun DGX Spark sono aggregate in un'unica porta, creando un "dual rail" che, pur utilizzando un solo cavo, offre una larghezza di banda effettiva di 200 Gbps. Le misurazioni hanno confermato un throughput di 100-111 Gbps per rail, raggiungendo il valore pubblicizzato.
La scelta di questa configurazione, in alternativa a soluzioni come le H100 o il GB300, è stata dettata dalla necessità di massimizzare la capacità di memoria unificata all'interno dell'ecosistema Nvidia. Questa strategia è cruciale per gestire LLM di grandi dimensioni. Ad esempio, con otto nodi del cluster, è stato possibile servire il modello GLM-5.1-NVFP4, che richiede 434 GB di memoria, utilizzando un parallelismo tensoriale (TP) di otto. Attualmente, il team sta conducendo test con modelli come DeepSeek e Kimi per valutarne ulteriormente le prestazioni.
Strategie di deployment e architettura di rack
La visione a lungo termine per questo cluster prevede una suddivisione dei carichi di lavoro tra prefill e decode. Il cluster Spark è destinato a gestire la fase di prefill, che richiede un throughput massivo e parallelo. Per la fase di decode, che spesso beneficia di latenze inferiori e di un'architettura di memoria ottimizzata per l'inference sequenziale, si prevede l'integrazione di due o quattro Mac Studio con chip M5 Ultra, una volta disponibili. Questa strategia ibrida on-premise mira a ottimizzare l'utilizzo delle risorse per le diverse fasi del ciclo di vita degli LLM.
Per i CTO e gli architetti di infrastruttura che valutano soluzioni on-premise, progetti come questo evidenziano i trade-off tra costi iniziali (CapEx) e operativi (OpEx), la sovranità dei dati e la flessibilità di personalizzazione. La possibilità di mantenere i dati e i modelli all'interno della propria infrastruttura offre vantaggi significativi in termini di compliance e sicurezza, aspetti spesso prioritari rispetto alla scalabilità immediata offerta dal cloud. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi trade-off.
Componenti dell'infrastruttura e prospettive future
L'infrastruttura completa del rack è stata dettagliata, offrendo uno spaccato della complessità di un deployment di questa scala. Oltre ai 16 DGX Spark, il rack include un firewall OPNSense, switch Mikrotik da 10 Gb e 100 Gb per l'uplink internet e la connettività HPC-NAS, un NAS QNAP da 374 TB con unità U.2, un server di gestione e due workstation con doppia GPU Nvidia GeForce RTX 4090. Sono presenti anche una SuperMicro 4x H100 NVL Station e un'unità GH200, a dimostrazione di un ambiente di sviluppo e inference estremamente variegato e potente.
Questo tipo di architettura, che integra diverse generazioni e tipologie di hardware Nvidia e non solo, riflette la tendenza a costruire infrastrutture AI altamente specializzate e ottimizzate per carichi di lavoro specifici. La capacità di orchestrare un tale ecosistema on-premise offre un controllo granulare sulle performance e sui costi, un fattore sempre più rilevante per le aziende che investono in Large Language Models.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!