Un recente studio ha esplorato le 'personalità' di sei modelli linguistici di grandi dimensioni (LLM) open-source con dimensioni comprese tra 7 e 9 miliardi di parametri, analizzando i loro hidden states. La ricerca ha rivelato che ciascun modello presenta un'impronta comportamentale distintiva, anche in assenza di prompt specifici.

Impronte comportamentali

  • DeepSeek 7B: Estremamente verboso, sicuro di sé e proattivo.
  • Llama 3.1 8B: Neutro, con valori medi prossimi allo zero su tutti gli assi comportamentali.
  • Yi 1.5 9B: Leggermente freddo, paziente e sicuro di sé.
  • Qwen 2.5 7B: Formale, cauto e proattivo.
  • Gemma 2 9B: Paziente, analitico e sicuro di sé.
  • Mistral 7B: Moderato su tutti gli assi.

Reazione a utenti ostili

I modelli sono stati sottoposti a scenari di conflitto simulati per valutare le loro reazioni. Qwen e Gemma si sono dimostrati i più resilienti, mentre DeepSeek è diventato più empatico e paziente. Mistral ha mostrato una tendenza a ritirarsi, diventando riluttante e conciso. Yi ha evidenziato una moderata deriva verso la riluttanza.

Zone morte comportamentali

Alcuni modelli presentano 'zone morte' comportamentali, ovvero aree in cui non rispondono efficacemente a determinati input. Llama 8B è risultato il più vincolato, con quattro assi comportamentali nella 'zona debole'. Queste zone morte sembrano correlate agli obiettivi dell'RLHF (Reinforcement Learning from Human Feedback), che tende a sopprimere comportamenti considerati socialmente negativi, come la freddezza o l'irritazione.

Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.