Difficoltà nel Controllo delle Catene di Pensiero nei Modelli AI
Un recente studio pubblicato su arXiv esplora la capacità dei modelli di ragionamento AI di controllare le proprie 'catene di pensiero' (Chain-of-Thought, CoT). Il monitoraggio del CoT è uno strumento promettente per rilevare anomalie e comprendere le motivazioni dei modelli, ma la sua efficacia dipende dalla capacità dei modelli di manipolare ciò che verbalizzano nel CoT.
La ricerca introduce la suite di valutazione CoT-Control, progettata per misurare questa capacità di 'controllabilità CoT'. I risultati indicano che i modelli di ragionamento hanno una controllabilità CoT significativamente inferiore rispetto alla controllabilità dell'output finale. Ad esempio, Claude Sonnet 4.5 controlla il suo CoT solo nel 2.7% dei casi, rispetto al 61.9% quando controlla l'output finale.
Si è anche scoperto che la controllabilità CoT aumenta con modelli più grandi e diminuisce con più training RL, calcolo in fase di test e maggiore difficoltà del problema. Anche incentivi (anziché richieste dirette) per eludere i monitor CoT non aumentano significativamente la controllabilità. I ricercatori raccomandano di monitorare la controllabilità CoT nei modelli futuri, data la sua importanza per il monitoraggio del CoT.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!