SWE-bench Verified: la valutazione è sospesa per problemi di integrità

Problemi di integrità in SWE-bench Verified

SWE-bench Verified, un benchmark ampiamente utilizzato per misurare le capacità di generazione di codice dei modelli di linguaggio, è stato oggetto di crescenti preoccupazioni riguardo alla sua integrità. Recenti analisi hanno rivelato che il benchmark presenta test imperfetti e potenziali fenomeni di training leakage, che ne compromettono l'accuratezza e l'affidabilità.

La presenza di training leakage implica che i modelli potrebbero essere stati esposti, direttamente o indirettamente, ai dati di test durante la fase di training, invalidando di fatto i risultati ottenuti. Questo solleva seri dubbi sulla capacità di SWE-bench Verified di misurare in modo accurato i progressi reali nello sviluppo di modelli di generazione di codice.

Raccomandazione: SWE-bench Pro

In considerazione di questi problemi, è stata presa la decisione di non utilizzare più SWE-bench Verified per valutare le consegne dei modelli. In alternativa, si raccomanda l'adozione di SWE-bench Pro, una versione presumibilmente migliorata e più affidabile del benchmark. Ulteriori dettagli sulle differenze tra le due versioni e sui vantaggi di SWE-bench Pro non sono stati specificati.

SWE-bench Verified: la valutazione è sospesa per problemi di integrità

Problemi di integrità in SWE-bench Verified

Raccomandazione: SWE-bench Pro

💻 Hai bisogno di infrastruttura GPU cloud?

💬 Commenti (0)

🔍 Continua a esplorare

Approfondisci su LLM On-Premise

DeepSearchQA: un benchmark per agenti di ricerca avanzati

La FACTS Benchmark Suite per valutare la fattualità dei modelli di linguaggio grandi

Benchmark: alleati dell'AI open source contro la mistificazione

👥 Unisciti a 160+ appassionati di AI