EduResearchBench: Valutazione granulare di LLM nella ricerca accademica

Un nuovo benchmark, chiamato EduResearchBench, è stato sviluppato per valutare in modo più preciso le capacità dei modelli linguistici di grandi dimensioni (LLM) nella scrittura accademica. Questo strumento nasce dall'esigenza di superare i limiti degli attuali benchmark, che spesso si concentrano su valutazioni monolitiche e non offrono una visione dettagliata delle performance dei modelli in contesti di ricerca complessi.

EduResearchBench si basa su un framework di task atomici gerarchici (HATD), che suddivide un flusso di lavoro di ricerca completo in sei moduli specializzati. Questi moduli coprono diverse aree, tra cui l'analisi quantitativa, la ricerca qualitativa e la ricerca sulle politiche. In totale, il framework definisce 24 task atomici, consentendo una valutazione automatizzata e granulare delle capacità dei modelli.

Un aspetto chiave di EduResearchBench è la sua capacità di fornire un feedback diagnostico dettagliato sulle carenze specifiche dei modelli. Questo approccio contrasta con i sistemi di valutazione olistici, in cui i punteggi aggregati possono mascherare i punti deboli specifici. Inoltre, il benchmark include una strategia di apprendimento curriculare che mira a sviluppare progressivamente le competenze dei modelli, partendo dalle abilità di base fino al ragionamento metodologico e all'argomentazione complessa.

Per addestrare un modello specializzato per la scrittura accademica, è stato creato EduWrite (30B), utilizzando 11.000 coppie di istruzioni di alta qualità derivate da 55.000 campioni accademici grezzi. I risultati sperimentali mostrano che EduWrite supera significativamente modelli general-purpose più grandi (72B) su diverse metriche chiave, evidenziando l'importanza della qualità dei dati e di un approccio di addestramento gerarchico in domini verticali.