Zai ha rilasciato ufficialmente GLM-5, un modello linguistico di grandi dimensioni (LLM) progettato per affrontare sfide complesse nell'ambito dell'ingegneria dei sistemi e per task che richiedono una pianificazione a lungo termine.
Caratteristiche principali
GLM-5 rappresenta un significativo passo avanti rispetto al suo predecessore, GLM-4.5, grazie a un aumento sostanziale del numero di parametri, che passano da 355 miliardi (32 miliardi attivi) a 744 miliardi (40 miliardi attivi). Il modello รจ stato pre-addestrato su un dataset di 28.5T token, rispetto ai 23T di GLM-4.5.
Un'altra caratteristica distintiva di GLM-5 รจ l'integrazione di DeepSeek Sparse Attention (DSA), una tecnica che mira a ridurre i costi di deployment mantenendo la capacitร di gestire contesti di grandi dimensioni. Questo aspetto รจ particolarmente rilevante per le aziende che desiderano eseguire modelli di questo tipo on-premise.
Risorse
Il modello, il codice sorgente e ulteriori informazioni sono disponibili sui seguenti repository:
- Blog: https://z.ai/blog/glm-5
- Hugging Face: https://huggingface.co/zai-org/GLM-5
- GitHub: https://github.com/zai-org/GLM-5
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!