AI-RADAR.IT · AI-RADAR.NET · AI-RADAR.TECH

News & analisi per LLM locali, stack e hardware on-prem.

📁 LLM AI generated

NVIDIA presenta gpt-oss-puzzle-88B: inference ottimizzata su H100

Pubblicato il 2026-03-26 09:22 ℹ️ LocalLLaMA 📰 Leggi l'articolo originale →

🏷️ Hardware 🏷️ Fine-Tuning

NVIDIA presenta gpt-oss-puzzle-88B: inference ottimizzata su H100

NVIDIA ha annunciato gpt-oss-puzzle-88B, un modello linguistico di grandi dimensioni (LLM) sviluppato a partire dal modello gpt-oss-120b di OpenAI. Questo nuovo modello è stato ottimizzato per l'inference, in particolare per carichi di lavoro che richiedono ragionamento complesso.

Architettura e Performance

gpt-oss-puzzle-88B è stato sviluppato utilizzando Puzzle, un framework di ricerca di architetture neurali (NAS) post-training. L'obiettivo principale è migliorare l'efficienza dell'inference, mantenendo o migliorando l'accuratezza. Rispetto al modello di partenza, gpt-oss-puzzle-88B presenta:

Parametri totali ridotti a circa 88 miliardi (circa il 73% del modello originale).
Un miglioramento del throughput di 1.63x in scenari di contesto lungo (64K/64K) su un nodo 8xH100.
Un miglioramento del throughput di 1.22x in scenari di contesto breve (4K/4K).
Un miglioramento del throughput fino a 2.82x su una singola GPU H100.
Accuratezza pari o superiore al modello originale.

Ottimizzazione per H100

Il modello è specificamente ottimizzato per il serving di contesti lunghi e brevi su hardware NVIDIA H100. In questi scenari, le prestazioni dei modelli di ragionamento sono spesso limitate dalla larghezza di banda della KV-cache e dalla capacità di memoria, piuttosto che dalla potenza di calcolo grezza.

Dettagli Architetturali

Tipo di architettura: Transformer Decoder-only Mixture-of-Experts.
Architettura di rete: Architettura gpt-oss modificata con un numero variabile di esperti per layer e un pattern di attenzione globale/finestra modificato tra i layer.
Numero di parametri del modello: 88 miliardi.

Takeaway AI-Radar

NVIDIA ha rilasciato gpt-oss-puzzle-88B, un modello linguistico di grandi dimensioni (LLM) derivato da gpt-oss-120b di OpenAI. Ottimizzato tramite Puzzle, un framework di ricerca di architetture neurali post-training (NAS), il modello promette un'efficienza di inference significativamente migliorata, specialmente su hardware NVIDIA H100, mantenendo o migliorando l'accuratezza.

🤖 Chiedi all'AI di questo argomento

Vuoi approfondire? Leggi l'articolo completo dalla fonte:

📖 VAI ALLA FONTE ORIGINALE

💻 Hai bisogno di infrastruttura GPU cloud?

Per eseguire inferenza LLM, training di modelli o testare configurazioni hardware, dai un'occhiata a questa piattaforma:

RunPod Piattaforma GPU Cloud

Cloud GPU flessibile con fatturazione al secondo. Deploy istantaneo con supporto Docker, auto-scaling e ampia selezione di GPU da RTX 4090 a H100.

✓ Nessun vincolo ✓ Deploy istantaneo ✓ Pronto produzione

🔗 Questo è un link affiliato - potremmo ricevere una commissione senza costi aggiuntivi per te.

AI-RADAR NEWSLETTER

Resta aggiornato — segnali AI nella tua inbox

Digest giornaliero o settimanale delle notizie AI più importanti. 160+ lettori, zero spam.

💬 Commenti (0)

🔒 Accedi o registrati per commentare gli articoli.

Nessun commento ancora. Sii il primo a commentare!

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack e privacy.

GPT-OSS 120B: modello open-source non censurato per inference locale

GPT-OSS 120B: modello open-source non censurato per inference locale

È disponibile una versione non censurata di GPT-OSS 120B, un modello linguistico open-source con 117 miliardi di parametri totali e una finestra di contesto di

Nvidia rivede il design di raffreddamento per la piattaforma Vera Rubin

Hardware Jun 08

Nvidia rivede il design di raffreddamento per la piattaforma Vera Rubin

Nvidia starebbe abbandonando l'architettura di raffreddamento a due pezzi per la sua prossima piattaforma Vera Rubin, secondo quanto riportato da DIGITIMES. Que

NVIDIA Vera Rubin: inference AI con GPU e LPU Groq

Hardware Mar 17

NVIDIA Vera Rubin: inference AI con GPU e LPU Groq

NVIDIA integrerà le LPU di Groq nella sua architettura rackscale Vera Rubin. Questa mossa rappresenta una significativa espansione oltre l'uso esclusivo di GPU

Sambanova sfida il dominio GPU nell'Inference AI al Computex

Hardware Jun 05

Sambanova sfida il dominio GPU nell'Inference AI al Computex

Al Computex, Sambanova ha dichiarato l'intenzione di sfidare il predominio delle GPU nell'ambito dell'Inference AI. Questa mossa evidenzia la crescente ricerca

Helion e vLLM: Ottimizzazione Avanzata per l'Inference LLM su GPU NVIDIA

Frameworks Jun 10

Helion e vLLM: Ottimizzazione Avanzata per l'Inference LLM su GPU NVIDIA

Un recente studio ha esplorato l'integrazione dei kernel Helion in vLLM per l'inference FP8 dei modelli Qwen3, valutandone le performance su GPU NVIDIA H100 e B

Altri articoli in LLM

Fine-tuning Qwen: perché i modelli ottimizzati faticano a convincere

DeepSeek-V4-Pro-DSpark: il nuovo LLM open source che guarda al deployment locale

Ornith-1.0-35B Q3_K_M: 17 GB di VRAM e benchmark verde, la quantization estrema regge

Distillare LLM in proprio per il theorem proving: quando lo stack on-premise batte il cloud

Mythos 5 di Anthropic autorizzato a oltre 100 enti USA: svolta per l'AI sovrana?

Anthropic può rilasciare Mythos a organizzazioni USA: il via libera della Casa Bianca

→ Vedi tutti in LLM →

AI-Radar LLM On-Premise

Guida completa per eseguire modelli AI in locale: hardware, stack, privacy e architetture di riferimento.

👥 Unisciti a 160+ appassionati di AI

Una community gratuita di sviluppatori, ingegneri e appassionati di AI — newsletter, commenti, radar settimanale.

Iscriviti gratis → Hai già un account? Accedi