Analisi della 'personalità' di LLM open-source tramite hidden states

Un recente studio ha esplorato le 'personalità' di sei modelli linguistici di grandi dimensioni (LLM) open-source con dimensioni comprese tra 7 e 9 miliardi di parametri, analizzando i loro hidden states. La ricerca ha rivelato che ciascun modello presenta un'impronta comportamentale distintiva, anche in assenza di prompt specifici.

Impronte comportamentali

DeepSeek 7B: Estremamente verboso, sicuro di sé e proattivo.
Llama 3.1 8B: Neutro, con valori medi prossimi allo zero su tutti gli assi comportamentali.
Yi 1.5 9B: Leggermente freddo, paziente e sicuro di sé.
Qwen 2.5 7B: Formale, cauto e proattivo.
Gemma 2 9B: Paziente, analitico e sicuro di sé.
Mistral 7B: Moderato su tutti gli assi.

Reazione a utenti ostili

I modelli sono stati sottoposti a scenari di conflitto simulati per valutare le loro reazioni. Qwen e Gemma si sono dimostrati i più resilienti, mentre DeepSeek è diventato più empatico e paziente. Mistral ha mostrato una tendenza a ritirarsi, diventando riluttante e conciso. Yi ha evidenziato una moderata deriva verso la riluttanza.

Zone morte comportamentali

Alcuni modelli presentano 'zone morte' comportamentali, ovvero aree in cui non rispondono efficacemente a determinati input. Llama 8B è risultato il più vincolato, con quattro assi comportamentali nella 'zona debole'. Queste zone morte sembrano correlate agli obiettivi dell'RLHF (Reinforcement Learning from Human Feedback), che tende a sopprimere comportamenti considerati socialmente negativi, come la freddezza o l'irritazione.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.

Analisi della 'personalità' di LLM open-source tramite hidden states

Impronte comportamentali

Reazione a utenti ostili

Zone morte comportamentali

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

Qwen 3.5 Plus (397b-a17b) disponibile sull'app cinese Qwen

Ritorno all'era sperimentale degli LLM: creatività e dati non convenzionali

Anthropic: l'AI eccelle in ambiti specifici, l'automazione da sola non basta

👥 Unisciti a 160+ appassionati di AI