Un team di sviluppatori ha riscontrato un comportamento inatteso durante l'utilizzo di Whisper per la trascrizione di meeting: in assenza di audio, il modello non rimane silente, ma genera frasi di senso compiuto, sebbene prive di fondamento.
Il problema delle allucinazioni
Queste "allucinazioni" non sono rumore casuale, ma frasi ben formate, spesso ricorrenti. Esempi includono ringraziamenti generici, riferimenti a sottotitoli o, peggio, loop ripetitivi che si protraggono per interi paragrafi. La causa risiede nell'addestramento di Whisper su un vasto dataset di audio da YouTube, che lo porta a "completare" il silenzio con le frasi piรน probabili, come quelle tipiche dei ringraziamenti finali dei video.
Soluzioni proposte
Il team ha implementato diverse strategie per mitigare il problema:
- Silero VAD come pre-filtro: Utilizzare un modello di Voice Activity Detection (VAD) per evitare di sottoporre a Whisper segmenti audio privi di voce.
condition_on_previous_text=False: Disabilitare questa opzione, che altrimenti innescherebbe una cascata di allucinazioni, alimentando il prompt della finestra successiva con l'output errato.- Blocklist di stringhe esatte: Mantenere una lista di frasi tipiche generate da Whisper e scartare i segmenti corrispondenti.
- Rilevamento di output ripetuti: Interrompere la trascrizione se lo stesso testo viene generato consecutivamente per un certo numero di volte.
beam_size=1: Impostare una dimensione del fascio ridotta per una decodifica piรน rapida e meno incline a loop.
Queste tecniche si sono dimostrate efficaci nel ridurre significativamente le allucinazioni di Whisper in ambienti di produzione. A differenza dei modelli CTC/transducer, che generano token vuoti durante il silenzio, l'architettura di Whisper richiede la generazione continua di testo, rendendo necessarie queste contromisure.
ร importante notare che alcune allucinazioni possono contenere contenuti violenti o dannosi, il che rende cruciale l'implementazione di meccanismi di mitigazione, specialmente in contesti delicati come la trascrizione medica.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!