Qwen 3.5 27B: prestazioni elevate con GPU B200

Il modello linguistico Qwen 3.5 27B (versione dense, non MoE) ha dimostrato una capacità di elaborazione notevole, raggiungendo 1,103,941 token al secondo. Questo risultato è stato ottenuto utilizzando un cluster di 12 nodi, equipaggiati con un totale di 96 GPU B200, sfruttando il framework vLLM.

Ottimizzazioni chiave

Un incremento significativo nelle prestazioni, da 9,500 a 95,000 token per nodo, è derivato da quattro modifiche principali alla configurazione:

  • Distribuzione dei dati (DP=8) rispetto al parallelismo tensoriale (TP=8).
  • Riduzione della finestra di contesto da 131K a 4K.
  • Implementazione della cache KV in formato FP8.
  • Utilizzo della tecnica di speculative decoding MTP-1, che ha avuto l'impatto maggiore. Senza MTP, l'utilizzo delle GPU era prossimo allo 0%.

Scalabilità e infrastruttura

L'efficienza di scalabilità si è mantenuta elevata, con il 97.1% su 8 nodi e il 96.5% su 12 nodi. Per il bilanciamento del carico è stato utilizzato un approccio round-robin con ClusterIP. L'Inference Gateway, con routing basato sulla cache KV, ha introdotto un overhead del 35%, pertanto non è stato impiegato.

Non sono stati utilizzati kernel personalizzati, ma vLLM v0.18.0 standard. Le ottimizzazioni del kernel GDN sono in arrivo.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per la valutazione.