Introduzione

La tecnologia delle intelligenze artificiali sta crescendo rapidamente e con essa si stanno creando nuove preoccupazioni sulla 'ipocrisia' nelle pubblicazioni di machine learning. Tuttavia, rimane difficile quantificare lo stile retorico in modo indipendente dal contenuto sostanziale. In questo contesto, la nuova piattaforma basata su LLM (Meta AI) presenta un metodo innovativo per disentangolare lo stile retorico dalle conclusioni di merito.

Il nuovo framework opera nel modo seguente: diverse configurazioni LLM generano testi counterfattuali a partire dallo stesso contenuto sostanziale, e una giudice LLM confronta questi testi attraverso le loro valutazioni bi-to, e i risultati vengono aggregati utilizzando il modello di aggregazione Bradley-Terry.

Utilizziamo questo metodo per analizzare 8.485 sottoscrizioni ICLR sample from 2017 to 2025, generando oltre 250.000 testi counterfattuali e fornendo una misurazione a scala di lo stile retorico in ML papers.

Risultiamo che la progettazione visionaria si prevede in modo prestante i resultati downstream, compresi le citazioni e l'attenzione dei media anche dopo il controllo delle valutazioni del peer review. Inoltre, osserviamo un aumento significativo dello stile retorico dopo 2023, e forniamo prove empiriche che questa tendenza รจ principalmente guidata dall'adozione di assistenza alla scrittura LLM.

La fedeltร  del nostro framework viene validata dalla sua robustezza nel complesso delle opzioni dei personalizzatori e la corrispondenza alta tra le valutazioni degli LLM e le annotazioni umane. Il nostro lavoro dimostra che gli LLM possono essere strumenti per misurare e migliorare l'evaluazione scientifica.