Il team di Qwen ha ufficialmente confermato la presenza di gravi problemi di qualità dei dati all'interno dei set di test GPQA (General Purpose Question Answering) e HLE (Humanity's Last Exam). La notizia, emersa inizialmente su Reddit e ripresa dalla comunità LocalLLaMA, evidenzia come diverse risposte considerate corrette all'interno dei dataset fossero, in realtà, errate.
Analisi e Validazione
Un ricercatore indipendente aveva precedentemente condotto un'analisi forense sui dataset, denominata "DeepSeek-Overclock", riscontrando che il modello DeepSeek, spinto al limite, forniva risposte tecnicamente corrette ma in contraddizione con le etichette "gold standard" fornite. Ulteriori verifiche, tramite script Python, hanno confermato gli errori nei dataset.
Implicazioni
La conferma da parte del team di Qwen, tramite un paper pubblicato su ArXiv, sottolinea l'importanza di una validazione accurata dei dataset utilizzati per valutare le capacità di ragionamento dei modelli linguistici. L'articolo evidenzia come molte domande nel set di test HLE siano "fondamentalmente errate" e come, in alcuni casi, le risposte standard siano semplicemente sbagliate. Questo solleva interrogativi sull'affidabilità dei benchmark esistenti e sulla necessità di sviluppare metodologie di valutazione più robuste.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!