NVIDIA ha annunciato gpt-oss-puzzle-88B, un modello linguistico di grandi dimensioni (LLM) sviluppato a partire dal modello gpt-oss-120b di OpenAI. Questo nuovo modello รจ stato ottimizzato per l'inference, in particolare per carichi di lavoro che richiedono ragionamento complesso.
Architettura e Performance
gpt-oss-puzzle-88B รจ stato sviluppato utilizzando Puzzle, un framework di ricerca di architetture neurali (NAS) post-training. L'obiettivo principale รจ migliorare l'efficienza dell'inference, mantenendo o migliorando l'accuratezza. Rispetto al modello di partenza, gpt-oss-puzzle-88B presenta:
- Parametri totali ridotti a circa 88 miliardi (circa il 73% del modello originale).
- Un miglioramento del throughput di 1.63x in scenari di contesto lungo (64K/64K) su un nodo 8xH100.
- Un miglioramento del throughput di 1.22x in scenari di contesto breve (4K/4K).
- Un miglioramento del throughput fino a 2.82x su una singola GPU H100.
- Accuratezza pari o superiore al modello originale.
Ottimizzazione per H100
Il modello รจ specificamente ottimizzato per il serving di contesti lunghi e brevi su hardware NVIDIA H100. In questi scenari, le prestazioni dei modelli di ragionamento sono spesso limitate dalla larghezza di banda della KV-cache e dalla capacitร di memoria, piuttosto che dalla potenza di calcolo grezza.
Dettagli Architetturali
- Tipo di architettura: Transformer Decoder-only Mixture-of-Experts.
- Architettura di rete: Architettura gpt-oss modificata con un numero variabile di esperti per layer e un pattern di attenzione globale/finestra modificato tra i layer.
- Numero di parametri del modello: 88 miliardi.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!