Migliorare gli LLM: un approccio a ciclo chiuso per dati e valutazione

Migliorare gli LLM: la sfida tra dati e valutazione

L'ottimizzazione delle capacità dei Large Language Models (LLM) rappresenta una delle sfide centrali nella fase di pre-training. Tradizionalmente, questa capacità non è direttamente osservabile: i dati la modellano in prospettiva, mentre la valutazione la rivela solo retrospettivamente, condensando campioni, prompt, decodifica e regole di punteggio in un unico, spesso rumoroso, punteggio. Il processo pratico di ottimizzazione si svolge spesso al contrario: si osserva un fallimento e l'ingegnere deve inferire la correzione necessaria al corpus di dati. Questo approccio è complicato dalla discordanza tra i linguaggi utilizzati dai due ambiti – nomi di benchmark e correttezza per singolo campione da un lato, e fonti di dati, domini ed etichette di qualità dall'altro. Di conseguenza, l'inference della causa di un problema è spesso affidata all'intuizione piuttosto che a una metodologia rigorosa.

Il "Capability Slice": una lente diagnostica precisa

Per colmare questa lacuna, è stato introdotto il concetto di "capability slice". Si tratta di un gruppo di campioni di valutazione che condividono condizioni di background, tipo di compito, operazione di risoluzione e vincolo di output. Questa granularità è sufficientemente precisa per localizzare una singola debolezza del modello, ma al contempo abbastanza stabile da sopravvivere all'aggregazione, a differenza di un nome di benchmark, troppo generico, o di un singolo campione, troppo rumoroso. Costruito attorno a questa unità, un sistema completo include una tassonomia di valutazione, una tassonomia di dati non-istruzione e regole di mappatura. L'obiettivo è formare un ciclo chiuso che trasformi un fallimento a livello di benchmark in un intervento sui dati mirato e verificabile.

Dall'intuizione al dato: i casi d'uso concreti

L'efficacia di questo ciclo è stata testata attraverso due casi studio che hanno portato a conclusioni opposte ma corrette. Nel primo scenario, il sistema ha escluso la necessità di intervenire sui dati: un pre-training continuato aveva causato un calo del -46,82% nel benchmark BBH. La diagnosi, tuttavia, ha ricondotto il problema a una singola perdita mascherata del token <EOS> (End-Of-Sentence) piuttosto che a un indebolimento delle capacità di ragionamento. Ripristinando correttamente il token, il punteggio BBH è tornato a 66,44, superando il checkpoint originale, senza alcuna modifica ai dati di training.

Nel secondo caso, il ciclo ha invece indicato la necessità di un intervento sui dati. Una persistente debolezza nel ragionamento matematico è stata scomposta, tramite l'operazione di risoluzione, in combinazioni specifiche di fallimento. Una procedura di campionamento mirata, costruita su questa analisi, ha permesso di aumentare il Pass@128 per AIME2025/AIME2026 da 6,67/0,00 a 26,67 per entrambi. In entrambi gli esempi, lo stesso ciclo, senza modifiche, ha fornito verdetti corretti e opposti, dimostrando come l'inference dalla valutazione ai dati possa diventare un processo routinario, auditabile e sperimentalmente validato, superando l'approccio basato sull'intuizione.

Controllo e auditabilità: il valore per l'on-premise

Per le organizzazioni che valutano deployment di LLM on-premise, la metodologia del "capability slice" offre vantaggi significativi. La capacità di diagnosticare con precisione le cause delle performance dei modelli, distinguendo tra problemi di dati e configurazioni interne, è fondamentale per ottimizzare il Total Cost of Ownership (TCO). In ambienti self-hosted, dove il controllo sui dati e sull'infrastruttura è prioritario, un approccio sistematico e auditabile alla correzione dei modelli riduce i tempi di debugging e l'uso inefficiente delle risorse computazionali, come le costose GPU. Questo non solo migliora l'efficienza operativa, ma rafforza anche la sovranità dei dati e la compliance, permettendo alle aziende di mantenere una governance rigorosa sui propri modelli e sui dati sensibili, senza dipendere da logiche opache di fornitori cloud. La trasparenza e la riproducibilità dei risultati, come dimostrato dai casi studio, sono elementi chiave per la fiducia e l'adozione di LLM in contesti aziendali critici. Per chi valuta deployment on-premise, esistono framework analitici su /llm-onpremise che possono aiutare a valutare questi trade-off.