Dhi-5B: Un LLM da 5 miliardi di parametri sviluppato con risorse limitate

Uno studente universitario ha annunciato il rilascio di Dhi-5B, un modello linguistico multimodale (LLM) con 5 miliardi di parametri. La particolarità di questo progetto risiede nel budget estremamente contenuto utilizzato per l'addestramento: circa 1200 dollari.

Il modello è stato sviluppato utilizzando un codice base personalizzato e metodologie di addestramento all'avanguardia. Il processo di addestramento è stato suddiviso in cinque fasi principali:

  1. Pre-Training: La fase più intensiva dal punto di vista computazionale, dedicata alla costruzione del nucleo del modello.
  2. Estensione della Lunghezza del Contesto: Il modello impara a gestire contesti di 16.000 token, partendo dai 4.000 appresi durante il pre-training.
  3. Mid-Training: Ottimizzazione su dataset di alta qualità.
  4. Supervised-Fine-Tuning: Il modello viene affinato per gestire conversazioni.
  5. Vision-Extension: Il modello acquisisce la capacità di elaborare informazioni visive.

Il modello sarà rilasciato in tre fasi: Dhi-5B-Base (già disponibile), Dhi-5B-Instruct (in arrivo) e la versione completa Dhi-5B (in arrivo).

La versione base del modello ha 4 miliardi di parametri ed è stata addestrata su 40 miliardi di token di linguaggio naturale, principalmente in inglese, provenienti dal dataset FineWeb-Edu. Per l'ottimizzazione dei Matrix Layers è stato utilizzato il nuovo ottimizzatore Muon, mentre il resto è stato ottimizzato con AdamW. L'architettura del modello prevede 32 layers, una larghezza di 3072, SwiGLU MLPs, full MHA attention con FlashAttention-3, una lunghezza del contesto di 4096, un vocabolario di 64.000 token e una dimensione del batch di 2 milioni durante l'addestramento.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste opzioni.