Persona e LLM: perché fine-tuning e steering non sono la stessa cosa

Chi lavora con gli LLM in produzione sa bene che per modellare il tono e lo stile delle risposte si può agire in tre modi: condizionando il prompt, eseguendo un fine-tuning su esempi specifici, oppure intervenendo direttamente sui vettori di attivazione durante l'inference (steering). Un assunto diffuso, mutuato dalla letteratura sui persona-vector, è che queste tre strade portino allo stesso risultato: la stessa direzione nello spazio latente dovrebbe codificare lo stesso tratto di personalità.

Uno studio teorico appena apparso smonta questa convinzione pezzo per pezzo. Prendendo di mira il framework ontologico di Beckmann e Butlin (2026) sul problema dell'individuazione degli LLM, gli autori hanno condotto esperimenti di topologia dei persona-vector su due modelli concreti – Qwen3-4B-Instruct e Mistral-7B-Instruct-v0.2 – trovando quattro incongruenze empiriche.

La prima: i vettori estratti via prompt non sono collineari con i bacini di attrazione ottenuti tramite fine-tuning. Detto in modo pratico, se cerchi di spingere il modello verso una personalità amichevole usando un prompt specifico, la direzione risultante nello spazio latente non corrisponde a quella che emerge quando lo stesso tratto viene appreso con l'aggiornamento dei pesi. Secondo: le persone fittizie (personaggi inventati) spostano il modello lungo direzioni associate ad ancore reali in modo più marcato di quanto facciano le ancore stesse, segnalando una dinamica controintuitiva.

Il terzo cuneo riguarda miscele di valenze contraddittorie: quando si combinano tratti opposti, il modello tende a un attrattore determinato dalla propria storia di training, ignorando l'equilibrio voluto dall'utente. Quarto e ultimo: l'algebra composizionale dei vettori è asimmetrica. Se prendi due direzioni e le fondi in fase di inference ottieni un comportamento diverso da quello prodotto addestrando il modello su una chimera costruita con le stesse componenti.

Tutto questo conduce a una proposta di revisione ontologica: l'identità di un contenuto rappresentazionale non è data dal solo vettore, ma dalla coppia (vettore, regime). In altre parole, ciò che chiamiamo "personalità" dell'LLM esiste solo all'interno di un regime specifico – prompt, fine-tuning o steering – e non può essere trasportato automaticamente da uno all'altro. Beckmann e Butlin, così come altri filosofi della mente artificiale (Mollo e Millière, Chalmers, Cerullo), avrebbero quindi descritto tre oggetti interni diversi, non tre candidati in competizione per lo stesso referente.

Per chi gestisce modelli on-premise, la posta in gioco è concreta. Molte organizzazioni scelgono il self-hosting proprio per avere il controllo totale sul comportamento del modello, spesso combinando fine-tuning aziendale con guardrail attivi in inference. Se la stessa persona non è garantita attraverso i regimi, la prevedibilità del sistema si riduce e con essa la fiducia nelle misure di sicurezza. L'articolo non offre soluzioni operative immediate, ma segnala la necessità di test di coerenza incrociata ogni volta che si integrano metodi diversi di personalizzazione. Un avvertimento che le pipeline di deployment farebbero bene a raccogliere.

Persona e LLM: perché fine-tuning e steering non sono la stessa cosa

💻 Hai bisogno di infrastruttura GPU cloud?

Resta aggiornato — segnali AI nella tua inbox

💬 Commenti (0)

🔍 Continua a esplorare

Altri articoli in LLM

👥 Unisciti a 160+ appassionati di AI