Bias nei benchmark per la guida autonoma

I benchmark di Multiple Choice Question Answering (MCQA) sono ampiamente utilizzati per valutare le prestazioni dei Vision Language Model (VLM) in scenari di guida autonoma. Tuttavia, uno studio recente evidenzia come questi benchmark siano suscettibili a bias testuali nascosti, che permettono ai modelli di sfruttare pattern linguistici anzichรฉ la comprensione del contesto visivo.

Riduzione del bias con un nuovo metodo

La ricerca propone un metodo per ridurre significativamente questo problema. I risultati mostrano che un VLM fine-tunato su dati sintetici puรฒ raggiungere un'accuratezza comparabile a quella ottenuta su benchmark validati da umani, anche senza input visivo. Il metodo proposto riduce l'accuratezza basata su scorciatoie testuali dal +66.9% al +2.9%, eliminando la maggior parte degli exploit linguistici.

Curriculum learning e grounding visivo

Decoupling la risposta corretta da artefatti linguistici e impiegando una strategia di curriculum learning, il modello รจ forzato a basarsi sul grounding visivo. Questo assicura che le prestazioni riflettano accuratamente la comprensione percettiva, migliorando l'affidabilitร  dei VLM in applicazioni di guida autonoma.