Dhi-5B: Un LLM da 5 miliardi di parametri sviluppato con risorse limitate
Uno studente universitario ha annunciato il rilascio di Dhi-5B, un modello linguistico multimodale (LLM) con 5 miliardi di parametri. La particolarità di questo progetto risiede nel budget estremamente contenuto utilizzato per l'addestramento: circa 1200 dollari.
Il modello è stato sviluppato utilizzando un codice base personalizzato e metodologie di addestramento all'avanguardia. Il processo di addestramento è stato suddiviso in cinque fasi principali:
- Pre-Training: La fase più intensiva dal punto di vista computazionale, dedicata alla costruzione del nucleo del modello.
- Estensione della Lunghezza del Contesto: Il modello impara a gestire contesti di 16.000 token, partendo dai 4.000 appresi durante il pre-training.
- Mid-Training: Ottimizzazione su dataset di alta qualità.
- Supervised-Fine-Tuning: Il modello viene affinato per gestire conversazioni.
- Vision-Extension: Il modello acquisisce la capacità di elaborare informazioni visive.
Il modello sarà rilasciato in tre fasi: Dhi-5B-Base (già disponibile), Dhi-5B-Instruct (in arrivo) e la versione completa Dhi-5B (in arrivo).
La versione base del modello ha 4 miliardi di parametri ed è stata addestrata su 40 miliardi di token di linguaggio naturale, principalmente in inglese, provenienti dal dataset FineWeb-Edu. Per l'ottimizzazione dei Matrix Layers è stato utilizzato il nuovo ottimizzatore Muon, mentre il resto è stato ottimizzato con AdamW. L'architettura del modello prevede 32 layers, una larghezza di 3072, SwiGLU MLPs, full MHA attention con FlashAttention-3, una lunghezza del contesto di 4096, un vocabolario di 64.000 token e una dimensione del batch di 2 milioni durante l'addestramento.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste opzioni.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!