Quando un LLM risponde a una domanda, quanto spesso lo fa basandosi su una conoscenza effettiva e quanto invece tira a indovinare? Per chiunque debba integrare modelli linguistici in applicazioni sensibili – dall’analisi di documenti legali ai sistemi di supporto decisionale in azienda – la differenza è abissale. Il nuovo benchmark Know2Guess, pubblicato su GitHub insieme a un dataset pubblico, affronta proprio questo nodo con un approccio multi-zona e contamination-aware, proponendo una metodologia ripetibile per distinguere risposte fondate, astensioni volontarie e comportamenti casuali.

La comunità ha imparato a proprie spese che i consueti benchmark statici spesso non isolano il ragionamento da effetti spuri: dati di addestramento contaminati, bizzarrie dei prompt o generici rifiuti a rispondere. Know2Guess aggira questi problemi classificando 1.200 domande in cinque domini con etichette congelate al momento della costruzione del test, indicazioni esplicite su quando ci si aspetterebbe un’astensione e metadati sul rischio di contaminazione. La valutazione impiega un doppio parser – una versione ufficiale rigorosa e una normalizzata per la robustezza – e confronta le prestazioni di modelli come FLAN-T5, Qwen2.5-Instruct e Llama-3-Instruct in diversi regimi: prompt “answer-or-abstain” bloccati, controlli a sola risposta e varianti di template.

I risultati raccontano una storia di progressi parziali. I modelli FLAN di base rimangono deboli nell’astensione produttiva: non dicono “non lo so” quando dovrebbero. I modelli instruction-tuned più recenti, come Qwen2.5-3B-Instruct, mostrano una transizione selettiva ma incompleta dalla risposta all’astensione, ottenendo la migliore affidabilità complessiva. Tuttavia, anche il miglior modello fatica nelle zone dove la risposta è attesa, calibra male le probabilità e, paradossalmente, rifiuta a volte quesiti perfettamente benigni. Le analisi di robustezza su prompt e parser confermano la stabilità della classifica e delle conclusioni qualitative.

Dal punto di vista di chi opera stack on-premise o self-hosted, dove il controllo sulla catena di inference è totale ma la responsabilità della qualità risiede internamente, disporre di un protocollo di audit che separi nettamente answering, astensione, rifiuto e contaminazione è un passo avanti concreto. Sapere che un modello riconosce i propri limiti – senza rifiuti sistematici e senza risposte allucinate – è un requisito imprescindibile quando si trattano dati proprietari e non si può delegare a terze parti la verifica dell’attendibilità.

Know2Guess non risolve tutti i problemi di affidabilità, ma offre un linguaggio condiviso e una cassetta degli attrezzi per analizzare ciò che un LLM restituisce quando viene messo alla prova sul confine della sua conoscenza. Per i team che valutano modelli da eseguire sui propri server, con la necessità di certificare ogni output, questo benchmark segnala che il percorso verso LLM davvero responsabili non può prescindere da una misurazione trasparente dell’incertezza.