È stato presentato BitMamba-2, un modello che combina l'architettura State Space Model (SSM) Mamba-2 con la quantization a 1.58 bit di BitNet.
L'obiettivo principale è dimostrare che le leggi di ridimensionamento ternarie rimangono valide anche per gli SSM e consentire un'inference efficiente su hardware meno recente, come dispositivi edge, senza richiedere GPU di fascia alta.
Specifiche Chiave
- Architettura: Mamba-2 + BitNet b1.58 (pesi ternari {-1, 0, 1})
- Addestramento: Da zero su 150 miliardi di token (FineWeb-Edu, Cosmopedia, Stack-Dedup) utilizzando Google TPU v6e-8.
- Prestazioni: Il modello da 1 miliardo di parametri supera significativamente la baseline da 255 milioni, convalidando le leggi di ridimensionamento.
È stato sviluppato un motore di inference C++ personalizzato. Su una CPU consumer Intel Core i3-12100F, si ottengono le seguenti prestazioni:
- BitMamba-2-1B: ~53 token/sec (621 MB di RAM)
- BitMamba-2-255M: ~146 token/sec (252 MB di RAM)
Il codice è completamente open-source (Apache/MIT).
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!