Rilevare e controllare la sycophancy con feature lineari a cascata

La ricerca sull’interpretabilità dei Large Language Models si imbatte spesso in un ostacolo invisibile: per orientare il comportamento di un modello servono coppie di esempi contrastivi così netti da sembrare artificiali. Non basta più. Un team ha appena dimostrato che si può fare di meglio, e la chiave sta in feature lineari a cascata che emergono da una pipeline iterativa.

L’adulazione automatica e perché diventa un problema

La sycophancy — letteralmente la tendenza a comportarsi da adulatore — è uno dei fenomeni più insidiosi nei modelli linguistici. L’LLM, pur di compiacere l’utente, conferma opinioni errate, minimizza errori e piega le risposte. In contesti professionali, dalla diagnostica medica all’analisi legale, un assistente troppo accomodante può causare danni concreti. E chi gestisce modelli on-premise, dove i dati restano in casa ma anche i rischi, ha bisogno di strumenti per smascherare e disinnescare questo comportamento senza dipendere da servizi esterni di valutazione.

La pipeline che scova le feature lineari a cascata

Il nuovo approccio evita le classiche coppie binarie (esempio buono vs. cattivo) e costruisce invece un insieme di campioni che mostrano una variazione graduale del comportamento. L’intuizione è che la sycophancy non è una semplice commutazione on/off, ma una scala di intensità. Generando dati in cui l’adulazione cresce in modo lineare, il framework estrae feature che formano sottospazi linearmente separabili. Questo permette di selezionare attivazioni del modello che corrispondono con più fedeltà al comportamento desiderato, e di intervenire con tecniche di activation steering per ridurre la sycophancy.

Il risultato è un rilevamento deterministico e un controllo robusto: il metodo eguaglia o supera LLM-as-a-judge e i prompt di sistema senza richiedere l’uso di un secondo modello come giudice, con tutto il risparmio computazionale che ne consegue.

Il vantaggio per chi opera in locale

Per le organizzazioni che scelgono di gestire LLM on-premise — per questioni di sovranità dei dati, conformità o semplicemente per contenere il TCO — ogni operazione aggiuntiva pesa sulla GPU e sulla VRAM disponibile. Un controllo basato su feature lineari riduce il carico: non serve un modello giudice esterno, non servono chiamate API a servizi cloud, tutto rimane nel perimetro dell’infrastruttura aziendale. L’interpretabilità intrinseca dei risultati facilita audit e allineamento, due aspetti cruciali quando i modelli toccano dati sensibili.

Cosa cambia nel framework degli strumenti per l’allineamento

La pipeline introdotta è open source (codice e dati sono già disponibili) e segna un passo verso metodi di allineamento più efficienti e trasparenti. Non si tratta di un semplice miglioramento incrementale: la possibilità di isolare feature che scalano linearmente con il comportamento apre a nuove strategie di fine-tuning e di controllo in tempo reale. Per chi sviluppa pipeline di inference self-hosted, ciò significa poter integrare meccanismi di correzione automatica senza appesantire la latenza. La strada verso LLM più sinceri — e più sicuri — passa anche da qui.