È stato presentato BitMamba-2, un modello che combina l'architettura State Space Model (SSM) Mamba-2 con la quantization a 1.58 bit di BitNet.

L'obiettivo principale è dimostrare che le leggi di ridimensionamento ternarie rimangono valide anche per gli SSM e consentire un'inference efficiente su hardware meno recente, come dispositivi edge, senza richiedere GPU di fascia alta.

Specifiche Chiave

  • Architettura: Mamba-2 + BitNet b1.58 (pesi ternari {-1, 0, 1})
  • Addestramento: Da zero su 150 miliardi di token (FineWeb-Edu, Cosmopedia, Stack-Dedup) utilizzando Google TPU v6e-8.
  • Prestazioni: Il modello da 1 miliardo di parametri supera significativamente la baseline da 255 milioni, convalidando le leggi di ridimensionamento.

È stato sviluppato un motore di inference C++ personalizzato. Su una CPU consumer Intel Core i3-12100F, si ottengono le seguenti prestazioni:

  • BitMamba-2-1B: ~53 token/sec (621 MB di RAM)
  • BitMamba-2-255M: ~146 token/sec (252 MB di RAM)

Il codice è completamente open-source (Apache/MIT).