Google sfida l'assunto della catena di pensiero estesa

Un recente studio di Google ha messo in discussione la credenza comune secondo cui catene di ragionamento più lunghe nei modelli linguistici (LLM) si traducono necessariamente in maggiore accuratezza. La ricerca, che ha analizzato otto varianti di modelli tra cui GPT-OSS, DeepSeek-R1 e Qwen3, ha rilevato una correlazione negativa tra la lunghezza della catena di token e la precisione delle risposte.

Deep Thinking Ratio (DTR): una nuova metrica

Il team di ricerca ha introdotto il concetto di Deep Thinking Ratio (DTR), un parametro che misura la frazione di token effettivamente coinvolti in un'elaborazione approfondita rispetto ai token di riempimento. Il DTR viene calcolato monitorando le variazioni nella distribuzione delle previsioni attraverso i diversi livelli del modello. I token che si stabilizzano rapidamente nei livelli superficiali sono considerati "di riempimento", mentre quelli che subiscono revisioni continue nei livelli più profondi sono indicativi di un reale ragionamento. Lo studio ha rilevato che il DTR ha una correlazione positiva con l'accuratezza (0.82), superiore a quella della lunghezza della catena di token.

Strategia Think@n e implicazioni per l'inference locale

Sulla base di queste scoperte, i ricercatori hanno proposto la strategia Think@n, che prevede il campionamento di più percorsi di ragionamento, la stima del DTR dai primi 50 token e la conservazione solo del 50% dei campioni con DTR più elevato. Questo approccio, combinato con un voto a maggioranza, ha portato a un'accuratezza pari o superiore con una riduzione del 50% del carico computazionale. Ad esempio, GPT-OSS-120B-medium ha raggiunto il 94.7% su AIME 2025 con Think@n rispetto al 92.7% con l'approccio standard. L'identificazione e l'interruzione precoce dei percorsi di ragionamento di bassa qualità possono portare a un notevole risparmio di risorse computazionali, con una riduzione del consumo di token da 355.6k a 181.9k nei test. Per chi valuta deployment on-premise, esistono trade-off che AI-RADAR analizza in dettaglio su /llm-onpremise.

Rilevanza per l'inference locale

Questa ricerca ha implicazioni significative per l'inference locale di LLM. La possibilità di terminare precocemente i percorsi di ragionamento inefficienti consente di eseguire più tentativi con lo stesso budget computazionale. Anche strumenti basati su cloud che eseguono più passaggi di agenti potrebbero beneficiare di questo tipo di filtraggio.