Introduzione
Un team di ricercatori ha sviluppato un nuovo metodo per digitizzare e analizzare documenti storici, utilizzando tecniche di riconoscimento ottico caratteristico (OCR) e LLM (LLM). Il progetto mira a creare un pipeline automatico che integri i dati storici con database esistenti.
La ricerca si concentra sui libri dei professori e curatori dell'Universitร di Leida, scritti tra il 1983 e il 1985. I documenti contengono informazioni biografiche su questi professionisti.
L'obiettivo del progetto รจ quello di progettare un sistema automatico che integri l'OCR, l'interpretazione LLM e la connessione al database per armonizzare i dati dei documenti storici con i registri esistenti.
Il team ha utilizzato tecniche di riconoscimento ottico caratteristico, generative AI e metodi di connessione al database per elaborare i documenti tipografati storici in un formato digitale. L'OCR ha raggiunto un errore percentuale di carattere del 1,08% e un errore percentuale di parola del 5,06%. La struttura dei dati estratti dal testo dell'OCR ha ottenuto una precisione media del 63%, mentre la precisione media basata sull'annotazione dell'OCR รจ stata del 65%.
Questo indica che il modello generativo AI corregge in parte le prestazioni inferiori dell'OCR. L'algoritmo di connessione dei record ha collegato i file JSON annotati con una precisione del 94% e i file JSON derivati dall'OCR con una precisione del 81%.
Questo studio contribuisce alla ricerca delle umanitร digitali offrendo un pipeline automatico per interpretare documenti storici digitizzati, affrontando sfide come la variabilitร di layout e le differenze terminologiche, e esplorando l'applicabilitร e la forza del modello AI avanzato.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!