Un recente post su Reddit ha sollevato interrogativi sul comportamento di GLM-5, un modello linguistico di grandi dimensioni (LLM). L'utente /u/TinyApplet ha notato che, istruendo il modello a impersonare Claude di Anthropic, lo stile di scrittura e la personalità di GLM-5 cambiano drasticamente.

Bypass della Censura

Ancora più interessante è la segnalazione che questo cambio di personalità sembri aggirare alcune delle censure integrate nel modello. L'utente ha provato anche con istruzioni senza senso, senza ottenere gli stessi risultati, suggerendo che la risposta non sia casuale.

Intenzionalità o Emergenza?

Non è chiaro se questo comportamento sia stato intenzionalmente programmato dagli sviluppatori di Zhipu o se sia una proprietà emergente del modello. Potrebbe essere che GLM-5 sia stato addestrato con dati che includono informazioni su Claude, oppure che il modello abbia semplicemente appreso come "dovrebbe" comportarsi Claude. Per chi valuta deployment on-premise, esistono trade-off tra controllo del modello e comportamenti inattesi. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.