BitMamba-2: modello Mamba-2 da 1.58 bit addestrato su CPU

È stato presentato BitMamba-2, un modello che combina l'architettura State Space Model (SSM) Mamba-2 con la quantization a 1.58 bit di BitNet.

L'obiettivo principale è dimostrare che le leggi di ridimensionamento ternarie rimangono valide anche per gli SSM e consentire un'inference efficiente su hardware meno recente, come dispositivi edge, senza richiedere GPU di fascia alta.

Specifiche Chiave

Architettura: Mamba-2 + BitNet b1.58 (pesi ternari {-1, 0, 1})
Addestramento: Da zero su 150 miliardi di token (FineWeb-Edu, Cosmopedia, Stack-Dedup) utilizzando Google TPU v6e-8.
Prestazioni: Il modello da 1 miliardo di parametri supera significativamente la baseline da 255 milioni, convalidando le leggi di ridimensionamento.

È stato sviluppato un motore di inference C++ personalizzato. Su una CPU consumer Intel Core i3-12100F, si ottengono le seguenti prestazioni:

BitMamba-2-1B: ~53 token/sec (621 MB di RAM)
BitMamba-2-255M: ~146 token/sec (252 MB di RAM)

Il codice è completamente open-source (Apache/MIT).

BitMamba-2: modello Mamba-2 da 1.58 bit addestrato su CPU

Specifiche Chiave

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

GPT-OSS 120B: modello open-source non censurato per inference locale

FlashLM: modello linguistico addestrato su CPU in poco più di un'ora

Ottimizzare modelli MoE su CPU: guida a GLM-4 e GPT-OSS

👥 Unisciti a 160+ appassionati di AI