GLM-5: nuovo modello linguistico con 744 miliardi di parametri

Zai ha rilasciato ufficialmente GLM-5, un modello linguistico di grandi dimensioni (LLM) progettato per affrontare sfide complesse nell'ambito dell'ingegneria dei sistemi e per task che richiedono una pianificazione a lungo termine.

Caratteristiche principali

GLM-5 rappresenta un significativo passo avanti rispetto al suo predecessore, GLM-4.5, grazie a un aumento sostanziale del numero di parametri, che passano da 355 miliardi (32 miliardi attivi) a 744 miliardi (40 miliardi attivi). Il modello è stato pre-addestrato su un dataset di 28.5T token, rispetto ai 23T di GLM-4.5.

Un'altra caratteristica distintiva di GLM-5 è l'integrazione di DeepSeek Sparse Attention (DSA), una tecnica che mira a ridurre i costi di deployment mantenendo la capacità di gestire contesti di grandi dimensioni. Questo aspetto è particolarmente rilevante per le aziende che desiderano eseguire modelli di questo tipo on-premise.

Risorse

Il modello, il codice sorgente e ulteriori informazioni sono disponibili sui seguenti repository:

Blog: https://z.ai/blog/glm-5
Hugging Face: https://huggingface.co/zai-org/GLM-5
GitHub: https://github.com/zai-org/GLM-5

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

GLM-5: nuovo modello linguistico con 744 miliardi di parametri

Caratteristiche principali

Risorse

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

GLM rilascia un modello OCR open source

GLM-5: il nuovo modello linguistico in arrivo a febbraio

Attesa per DeepSeek V4, GLM-5, Qwen 3.5 e MiniMax 2.2

👥 Unisciti a 160+ appassionati di AI