Introduzione

Un team di ricercatori ha sviluppato un nuovo metodo per digitizzare e analizzare documenti storici, utilizzando tecniche di riconoscimento ottico caratteristico (OCR) e LLM (LLM). Il progetto mira a creare un pipeline automatico che integri i dati storici con database esistenti.

La ricerca si concentra sui libri dei professori e curatori dell'Universitร  di Leida, scritti tra il 1983 e il 1985. I documenti contengono informazioni biografiche su questi professionisti.

L'obiettivo del progetto รจ quello di progettare un sistema automatico che integri l'OCR, l'interpretazione LLM e la connessione al database per armonizzare i dati dei documenti storici con i registri esistenti.

Il team ha utilizzato tecniche di riconoscimento ottico caratteristico, generative AI e metodi di connessione al database per elaborare i documenti tipografati storici in un formato digitale. L'OCR ha raggiunto un errore percentuale di carattere del 1,08% e un errore percentuale di parola del 5,06%. La struttura dei dati estratti dal testo dell'OCR ha ottenuto una precisione media del 63%, mentre la precisione media basata sull'annotazione dell'OCR รจ stata del 65%.

Questo indica che il modello generativo AI corregge in parte le prestazioni inferiori dell'OCR. L'algoritmo di connessione dei record ha collegato i file JSON annotati con una precisione del 94% e i file JSON derivati dall'OCR con una precisione del 81%.

Questo studio contribuisce alla ricerca delle umanitร  digitali offrendo un pipeline automatico per interpretare documenti storici digitizzati, affrontando sfide come la variabilitร  di layout e le differenze terminologiche, e esplorando l'applicabilitร  e la forza del modello AI avanzato.