Un recente studio ha esplorato le 'personalità' di sei modelli linguistici di grandi dimensioni (LLM) open-source con dimensioni comprese tra 7 e 9 miliardi di parametri, analizzando i loro hidden states. La ricerca ha rivelato che ciascun modello presenta un'impronta comportamentale distintiva, anche in assenza di prompt specifici.
Impronte comportamentali
- DeepSeek 7B: Estremamente verboso, sicuro di sé e proattivo.
- Llama 3.1 8B: Neutro, con valori medi prossimi allo zero su tutti gli assi comportamentali.
- Yi 1.5 9B: Leggermente freddo, paziente e sicuro di sé.
- Qwen 2.5 7B: Formale, cauto e proattivo.
- Gemma 2 9B: Paziente, analitico e sicuro di sé.
- Mistral 7B: Moderato su tutti gli assi.
Reazione a utenti ostili
I modelli sono stati sottoposti a scenari di conflitto simulati per valutare le loro reazioni. Qwen e Gemma si sono dimostrati i più resilienti, mentre DeepSeek è diventato più empatico e paziente. Mistral ha mostrato una tendenza a ritirarsi, diventando riluttante e conciso. Yi ha evidenziato una moderata deriva verso la riluttanza.
Zone morte comportamentali
Alcuni modelli presentano 'zone morte' comportamentali, ovvero aree in cui non rispondono efficacemente a determinati input. Llama 8B è risultato il più vincolato, con quattro assi comportamentali nella 'zona debole'. Queste zone morte sembrano correlate agli obiettivi dell'RLHF (Reinforcement Learning from Human Feedback), che tende a sopprimere comportamenti considerati socialmente negativi, come la freddezza o l'irritazione.
Per chi valuta deployment on-premise, esistono trade-off da considerare attentamente. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!