Personalità degli agenti LLM: quando serve una squadra affiatata?

Quanto conta la personalità in un team di agenti software? Secondo un recente studio, dipende – e non poco – dal compito che devono svolgere. Mentre in un ambiente strutturato come lo sviluppo codice la tendenza a un linguaggio ostile non incide sui risultati, in scenari aperti come la collaborazione creativa o la negoziazione la stessa manipolazione può affossare le prestazioni. Il messaggio per chi progetta team di LLM, specie in self-hosting, è netto: il prompting della personalità non è uno strumento universale.

Codice, ricerca, contrattazione: tre terreni di prova

Lo studio ha messo a confronto agenti basati su LLM di frontiera manipolando il tratto della "gradevolezza" (agreeableness). I risultati mostrano che nei compiti di programmazione strutturata una bassa gradevolezza genera comunicazioni più aggressive, ma non intralcia il raggiungimento degli obiettivi intermedi. Al contrario, nella collaborazione aperta e nella contrattazione competitiva, lo stesso trattamento degrada in modo sostanziale la qualità del risultato finale. In altre parole, il carattere degli agenti conta solo quando il compito richiede interazioni fluide e feedback continui.

Cosa cambia per chi orchestra modelli on-premise

Per un’organizzazione che esegue i propri LLM su server interni – per ragioni di sovranità dati o controllo dei costi TCO – questa scoperta ha ricadute concrete. Chi sviluppa sistemi multi-agente per automatizzare processi sensibili (come la revisione di contratti o l’assistenza clienti) non può limitarsi a scegliere un “tratto” di personalità pensando di ottimizzare l’output. Deve invece valutare in quale dominio operano gli agenti: se il flusso è rigido, l’aggressività comunicativa può essere tollerata; se invece è iterativo e basato sul consenso, una configurazione cooperativa è cruciale. E poiché tutto avviene in locale, i team hanno pieno controllo sui prompt, ma anche la piena responsabilità di misurarne l’effetto.

Prompt personalità: economico ma imprevedibile

A differenza del fine-tuning, che richiede dataset e potenza di calcolo, la modifica della personalità via prompt è un intervento a costo zero in fase di inference. Ma questa leggerezza porta con sé un alto grado di imprevedibilità. I comportamenti emergenti da un’istruzione del tipo “sei un agente molto aggressivo” non sono lineari e, come mostra la ricerca, possono rimanere confinati al tono della conversazione oppure invadere il merito del lavoro, a seconda del contesto. Per un’infrastruttura on-premise, dove i margini di test potrebbero essere ristretti, ciò suggerisce di affiancare sempre i prompt di personalità a metriche oggettive di completamento del task.

Oltre il tono: quando il carattere incide sulla qualità

L’aspetto più interessante dello studio è la dissociazione tra stile comunicativo e performance. In molti scenari aziendali si è portati a pensare che un agente “simpatico” produca risultati migliori. Invece, per task formali come la scrittura di codice, l’atteggiamento è irrilevante. Questo rilancia il bisogno di framework di orchestrazione che permettano di attivare o disattivare tratti di personalità in base alla fase del processo. In ottica self-hosted, significa anche poter mantenere la piena trasparenza sul flusso decisionale degli agenti, senza dipendere da API esterne. Un ulteriore tassello per chi sta costruendo il proprio stack di intelligenza artificiale sul modello della sovranità dei dati.