Studente lancia Dhi-5B, LLM addestrato da zero con budget limitato

Dhi-5B: Un LLM da 5 miliardi di parametri sviluppato con risorse limitate

Uno studente universitario ha annunciato il rilascio di Dhi-5B, un modello linguistico multimodale (LLM) con 5 miliardi di parametri. La particolarità di questo progetto risiede nel budget estremamente contenuto utilizzato per l'addestramento: circa 1200 dollari.

Il modello è stato sviluppato utilizzando un codice base personalizzato e metodologie di addestramento all'avanguardia. Il processo di addestramento è stato suddiviso in cinque fasi principali:

Pre-Training: La fase più intensiva dal punto di vista computazionale, dedicata alla costruzione del nucleo del modello.
Estensione della Lunghezza del Contesto: Il modello impara a gestire contesti di 16.000 token, partendo dai 4.000 appresi durante il pre-training.
Mid-Training: Ottimizzazione su dataset di alta qualità.
Supervised-Fine-Tuning: Il modello viene affinato per gestire conversazioni.
Vision-Extension: Il modello acquisisce la capacità di elaborare informazioni visive.

Il modello sarà rilasciato in tre fasi: Dhi-5B-Base (già disponibile), Dhi-5B-Instruct (in arrivo) e la versione completa Dhi-5B (in arrivo).

La versione base del modello ha 4 miliardi di parametri ed è stata addestrata su 40 miliardi di token di linguaggio naturale, principalmente in inglese, provenienti dal dataset FineWeb-Edu. Per l'ottimizzazione dei Matrix Layers è stato utilizzato il nuovo ottimizzatore Muon, mentre il resto è stato ottimizzato con AdamW. L'architettura del modello prevede 32 layers, una larghezza di 3072, SwiGLU MLPs, full MHA attention con FlashAttention-3, una lunghezza del contesto di 4096, un vocabolario di 64.000 token e una dimensione del batch di 2 milioni durante l'addestramento.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare queste opzioni.

Studente lancia Dhi-5B, LLM addestrato da zero con budget limitato

Dhi-5B: Un LLM da 5 miliardi di parametri sviluppato con risorse limitate

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Anthropic punta a una valutazione di 300 miliardi con una raccolta fondi da 20

Preply, piattaforma ucraina per l'apprendimento linguistico, vale 1,2 miliardi

Anthropic punta a un round di finanziamento da 20 miliardi

👥 Unisciti a 160+ appassionati di AI