Dhi-5B: Un LLM da 5 miliardi di parametri sviluppato con risorse limitate
Uno studente universitario ha annunciato il rilascio di Dhi-5B, un modello linguistico multimodale (LLM) con 5 miliardi di parametri. La particolaritร di questo progetto risiede nel budget estremamente contenuto utilizzato per l'addestramento: circa 1200 dollari.
Il modello รจ stato sviluppato utilizzando un codice base personalizzato e metodologie di addestramento all'avanguardia. Il processo di addestramento รจ stato suddiviso in cinque fasi principali:
- Pre-Training: La fase piรน intensiva dal punto di vista computazionale, dedicata alla costruzione del nucleo del modello.
- Estensione della Lunghezza del Contesto: Il modello impara a gestire contesti di 16.000 token, partendo dai 4.000 appresi durante il pre-training.
- Mid-Training: Ottimizzazione su dataset di alta qualitร .
- Supervised-Fine-Tuning: Il modello viene affinato per gestire conversazioni.
- Vision-Extension: Il modello acquisisce la capacitร di elaborare informazioni visive.
Il modello sarร rilasciato in tre fasi: Dhi-5B-Base (giร disponibile), Dhi-5B-Instruct (in arrivo) e la versione completa Dhi-5B (in arrivo).
La versione base del modello ha 4 miliardi di parametri ed รจ stata addestrata su 40 miliardi di token di linguaggio naturale, principalmente in inglese, provenienti dal dataset FineWeb-Edu. Per l'ottimizzazione dei Matrix Layers รจ stato utilizzato il nuovo ottimizzatore Muon, mentre il resto รจ stato ottimizzato con AdamW. L'architettura del modello prevede 32 layers, una larghezza di 3072, SwiGLU MLPs, full MHA attention con FlashAttention-3, una lunghezza del contesto di 4096, un vocabolario di 64.000 token e una dimensione del batch di 2 milioni durante l'addestramento.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste opzioni.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!