NVIDIA presenta gpt-oss-puzzle-88B: inference ottimizzata su H100

NVIDIA ha annunciato gpt-oss-puzzle-88B, un modello linguistico di grandi dimensioni (LLM) sviluppato a partire dal modello gpt-oss-120b di OpenAI. Questo nuovo modello è stato ottimizzato per l'inference, in particolare per carichi di lavoro che richiedono ragionamento complesso.

Architettura e Performance

gpt-oss-puzzle-88B è stato sviluppato utilizzando Puzzle, un framework di ricerca di architetture neurali (NAS) post-training. L'obiettivo principale è migliorare l'efficienza dell'inference, mantenendo o migliorando l'accuratezza. Rispetto al modello di partenza, gpt-oss-puzzle-88B presenta:

Parametri totali ridotti a circa 88 miliardi (circa il 73% del modello originale).
Un miglioramento del throughput di 1.63x in scenari di contesto lungo (64K/64K) su un nodo 8xH100.
Un miglioramento del throughput di 1.22x in scenari di contesto breve (4K/4K).
Un miglioramento del throughput fino a 2.82x su una singola GPU H100.
Accuratezza pari o superiore al modello originale.

Ottimizzazione per H100

Il modello è specificamente ottimizzato per il serving di contesti lunghi e brevi su hardware NVIDIA H100. In questi scenari, le prestazioni dei modelli di ragionamento sono spesso limitate dalla larghezza di banda della KV-cache e dalla capacità di memoria, piuttosto che dalla potenza di calcolo grezza.

Dettagli Architetturali

Tipo di architettura: Transformer Decoder-only Mixture-of-Experts.
Architettura di rete: Architettura gpt-oss modificata con un numero variabile di esperti per layer e un pattern di attenzione globale/finestra modificato tra i layer.
Numero di parametri del modello: 88 miliardi.

NVIDIA presenta gpt-oss-puzzle-88B: inference ottimizzata su H100

Architettura e Performance

Ottimizzazione per H100

Dettagli Architetturali

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

GPT-OSS 120B: modello open-source non censurato per inference locale

NVIDIA Vera Rubin: inference AI con GPU e LPU Groq

La Cina accelera lo sviluppo di GPU per modelli di grandi dimensioni