GigaChat ha annunciato il rilascio dei pesi dei suoi modelli linguistici di grandi dimensioni (LLM) GigaChat-3.1-Ultra e GigaChat-3.1-Lightning sotto licenza MIT.

Caratteristiche principali

  • GigaChat-3.1-Ultra: Un modello Mixture of Experts (MoE) da 702 miliardi di parametri, progettato per ambienti con elevate risorse computazionali. Addestrato con FP8 nativo durante la fase DPO (Direct Preference Optimization), supporta MTP (Mixed Tensor Parallelism) e può essere eseguito su tre istanze HGX.
  • GigaChat-3.1-Lightning: Un modello MoE da 10 miliardi di parametri, ottimizzato per l'inference locale. Grazie al supporto nativo FP8 DPO e MTP, offre un throughput elevato con una finestra di contesto di 256k.
  • Addestramento: Entrambi i modelli sono stati pre-addestrati da zero utilizzando dati e risorse di calcolo proprietarie. Non si tratta di un fine-tuning di DeepSeek.
  • Lingue: Ottimizzati per inglese e russo, ma addestrati su 14 lingue per ottenere buoni risultati multilingua.
  • Tool calling: GigaChat-3.1-Lightning eccelle nel tool calling, raggiungendo un punteggio di 0.76 nel benchmark BFCLv3.

Performance

I modelli sono stati valutati su una serie di benchmark, dimostrando performance competitive rispetto ad altri modelli open source. In particolare, GigaChat-3.1-Ultra supera DeepSeek-V3-0324 e Qwen3-235B, mentre GigaChat-3.1-Lightning supera Qwen3-4B-Instruct-2507 e Gemma-3-4B-it. I test di throughput di GigaChat-3.1-Lightning mostrano un incremento fino al 38.1% con FP8 e MTP su una GPU H100 80GB SXM5.