Zai ha rilasciato ufficialmente GLM-5, un modello linguistico di grandi dimensioni (LLM) progettato per affrontare sfide complesse nell'ambito dell'ingegneria dei sistemi e per task che richiedono una pianificazione a lungo termine.

Caratteristiche principali

GLM-5 rappresenta un significativo passo avanti rispetto al suo predecessore, GLM-4.5, grazie a un aumento sostanziale del numero di parametri, che passano da 355 miliardi (32 miliardi attivi) a 744 miliardi (40 miliardi attivi). Il modello รจ stato pre-addestrato su un dataset di 28.5T token, rispetto ai 23T di GLM-4.5.

Un'altra caratteristica distintiva di GLM-5 รจ l'integrazione di DeepSeek Sparse Attention (DSA), una tecnica che mira a ridurre i costi di deployment mantenendo la capacitร  di gestire contesti di grandi dimensioni. Questo aspetto รจ particolarmente rilevante per le aziende che desiderano eseguire modelli di questo tipo on-premise.

Risorse

Il modello, il codice sorgente e ulteriori informazioni sono disponibili sui seguenti repository:

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.