Nvidia Nemotron 3 Super: architettura AI multi-agente per l'automazione

L'ottimizzazione economica dell'AI multi-agente è diventata cruciale per la sostenibilità finanziaria dei moderni flussi di lavoro di automazione aziendale.

Le aziende che evolvono dalle interfacce chat standard verso applicazioni multi-agente affrontano due sfide principali: il costo computazionale elevato e l'esplosione del contesto. Agenti autonomi complessi richiedono ragionamenti ad ogni fase, rendendo l'uso di architetture massive troppo costoso e lento. Inoltre, questi flussi di lavoro generano un volume di token superiore del 1500% rispetto ai formati standard, aumentando le spese e causando una divergenza dagli obiettivi iniziali.

Architetture per l'AI multi-agente

Per superare queste difficoltà, Nvidia ha rilasciato Nemotron 3 Super, un'architettura aperta con 120 miliardi di parametri (di cui 12 miliardi attivi), progettata per sistemi AI agentic complessi. Questo framework combina ragionamento avanzato per migliorare l'efficienza e l'accuratezza nell'automazione aziendale.

Il sistema utilizza un'architettura ibrida mixture-of-experts, con layer Mamba per un'efficienza di memoria e di calcolo quattro volte superiore, e layer transformer standard per gestire i requisiti di ragionamento complessi. Una tecnica latente aumenta l'accuratezza, mentre il sistema prevede simultaneamente più parole future, accelerando l'inference di tre volte.

Operando sulla piattaforma Blackwell, l'architettura sfrutta la precisione NVFP4, riducendo il fabbisogno di memoria e velocizzando l'inference fino a quattro volte rispetto alle configurazioni FP8 sui sistemi Hopper.

Automazione e risultati di business

Il sistema offre una finestra di contesto di un milione di token, permettendo agli agenti di mantenere l'intero stato del flusso di lavoro in memoria. Un agente di sviluppo software può caricare un intero codebase nel contesto, abilitando la generazione e il debug del codice end-to-end senza segmentazione. Nel settore finanziario, il sistema può caricare migliaia di pagine di report, migliorando l'efficienza. L'elevata accuratezza nel tool calling garantisce che gli agenti autonomi navighino in librerie di funzioni complesse, prevenendo errori in ambienti critici come l'orchestrazione autonoma della sicurezza nella cybersecurity.

Amdocs, Palantir, Cadence, Dassault Systèmes e Siemens stanno implementando e personalizzando il modello per automatizzare i flussi di lavoro in telecomunicazioni, cybersecurity, progettazione di semiconduttori e produzione. Piattaforme di sviluppo software come CodeRabbit, Factory e Greptile lo stanno integrando per ottenere maggiore accuratezza a costi inferiori. Aziende del settore life sciences come Edison Scientific e Lila Sciences lo utilizzeranno per la ricerca approfondita di letteratura, la data science e la comprensione molecolare.

L'architettura ha raggiunto la prima posizione nelle classifiche DeepResearch Bench e DeepResearch Bench II, evidenziando la sua capacità di ricerca multi-step su ampi set di documenti. Ha anche ottenuto il primo posto in Artificial Analysis per efficienza e apertura.

Implementazione e infrastruttura

Nvidia ha rilasciato il modello con pesi aperti sotto licenza permissiva, consentendo agli sviluppatori di implementarlo e personalizzarlo su workstation, data center o ambienti cloud. È incluso come microservizio NVIDIA NIM per facilitare l'implementazione da sistemi on-premise al cloud. Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

L'architettura è stata addestrata su dati sintetici generati da modelli di ragionamento avanzati. Nvidia ha pubblicato la metodologia completa, comprendente oltre 10 trilioni di token di dataset di pre- e post-training, 15 ambienti di training per il reinforcement learning e ricette di valutazione. I ricercatori possono ulteriormente effettuare il fine-tuning del modello o costruirne di propri utilizzando la piattaforma NeMo.

Nvidia Nemotron 3 Super: architettura AI multi-agente per l'automazione

Architetture per l'AI multi-agente

Automazione e risultati di business

Implementazione e infrastruttura

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Deep Agents: Sviluppare applicazioni multi-agente con IA avanzata

Nvidia investe 2 miliardi di dollari in CoreWeave per il calcolo AI

Qwen: Intelligenza artificiale cinese, difficile superare l'Occidente

👥 Unisciti a 160+ appassionati di AI