NVIDIA ha annunciato gpt-oss-puzzle-88B, un modello linguistico di grandi dimensioni (LLM) sviluppato a partire dal modello gpt-oss-120b di OpenAI. Questo nuovo modello รจ stato ottimizzato per l'inference, in particolare per carichi di lavoro che richiedono ragionamento complesso.

Architettura e Performance

gpt-oss-puzzle-88B รจ stato sviluppato utilizzando Puzzle, un framework di ricerca di architetture neurali (NAS) post-training. L'obiettivo principale รจ migliorare l'efficienza dell'inference, mantenendo o migliorando l'accuratezza. Rispetto al modello di partenza, gpt-oss-puzzle-88B presenta:

  • Parametri totali ridotti a circa 88 miliardi (circa il 73% del modello originale).
  • Un miglioramento del throughput di 1.63x in scenari di contesto lungo (64K/64K) su un nodo 8xH100.
  • Un miglioramento del throughput di 1.22x in scenari di contesto breve (4K/4K).
  • Un miglioramento del throughput fino a 2.82x su una singola GPU H100.
  • Accuratezza pari o superiore al modello originale.

Ottimizzazione per H100

Il modello รจ specificamente ottimizzato per il serving di contesti lunghi e brevi su hardware NVIDIA H100. In questi scenari, le prestazioni dei modelli di ragionamento sono spesso limitate dalla larghezza di banda della KV-cache e dalla capacitร  di memoria, piuttosto che dalla potenza di calcolo grezza.

Dettagli Architetturali

  • Tipo di architettura: Transformer Decoder-only Mixture-of-Experts.
  • Architettura di rete: Architettura gpt-oss modificata con un numero variabile di esperti per layer e un pattern di attenzione globale/finestra modificato tra i layer.
  • Numero di parametri del modello: 88 miliardi.