Problemi di integrità in SWE-bench Verified
SWE-bench Verified, un benchmark ampiamente utilizzato per misurare le capacità di generazione di codice dei modelli di linguaggio, è stato oggetto di crescenti preoccupazioni riguardo alla sua integrità. Recenti analisi hanno rivelato che il benchmark presenta test imperfetti e potenziali fenomeni di training leakage, che ne compromettono l'accuratezza e l'affidabilità.
La presenza di training leakage implica che i modelli potrebbero essere stati esposti, direttamente o indirettamente, ai dati di test durante la fase di training, invalidando di fatto i risultati ottenuti. Questo solleva seri dubbi sulla capacità di SWE-bench Verified di misurare in modo accurato i progressi reali nello sviluppo di modelli di generazione di codice.
Raccomandazione: SWE-bench Pro
In considerazione di questi problemi, è stata presa la decisione di non utilizzare più SWE-bench Verified per valutare le consegne dei modelli. In alternativa, si raccomanda l'adozione di SWE-bench Pro, una versione presumibilmente migliorata e più affidabile del benchmark. Ulteriori dettagli sulle differenze tra le due versioni e sui vantaggi di SWE-bench Pro non sono stati specificati.
💬 Commenti (0)
🔒 Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!