Gli LLM svelano i segreti della storia manoscritta

La decifrazione della scrittura a mano su larga scala ha rappresentato a lungo una delle sfide più ostiche nel campo dell'intelligenza artificiale e della conservazione archivistica. Per decenni, ricercatori e archivisti hanno cercato metodi per rendere accessibili milioni di pagine di documenti storici, spesso scritti in corsivo denso o con grafie molto diverse tra loro. Sebbene i primi tentativi di automatizzare questo processo risalgano agli anni '60, con previsioni ottimistiche di macchine capaci di 'divorare' testi manoscritti, la realtà ha richiesto decenni di ricerca specializzata e lo sviluppo di intere industrie commerciali. Anche pionieri come Yann LeCun, vincitore del Turing Award per i suoi contributi al deep learning, hanno riconosciuto la complessità del problema, concentrandosi inizialmente su contesti più controllati, come il riconoscimento di cifre scritte a mano.

Oggi, il panorama sta cambiando radicalmente grazie all'avvento dei Large Language Models (LLM). Questi modelli di intelligenza artificiale di uso generale, pur non essendo perfetti, hanno raggiunto un livello di accuratezza sufficiente a rivoluzionare le pratiche archivistiche. Pagine che un tempo richiedevano formazione in paleografia, software personalizzati o settimane di lavoro minuzioso, possono ora produrre trascrizioni utilizzabili in pochi secondi. Collezioni storiche che erano state preservate ma rimanevano di fatto inaccessibili, stanno diventando ricercabili, aprendo nuove opportunità per studiosi e famiglie di esplorare domande che prima erano proibitive per tempo e costi.

La svolta degli LLM negli archivi: precisione, velocità e costi ridotti

La capacità degli LLM di affrontare la complessità della scrittura a mano è stata dimostrata da ricerche concrete. Mark Humphries, professore di storia presso la Wilfrid Laurier University, ha dedicato un decennio alla gestione di 10 milioni di pagine di registri pensionistici della Prima Guerra Mondiale in Canada. Questi documenti, scritti da centinaia di impiegati e amministratori diversi, rendevano impossibile l'uso di modelli specializzati addestrati su una singola grafia. Con il rilascio di GPT-4 da parte di OpenAI nel 2023, Humphries ha iniziato a testare gli LLM per la trascrizione, ottenendo risultati promettenti.

Due anni di test sistematici, i cui risultati sono stati pubblicati nel maggio 2025 su Historical Methods, hanno confermato le sue osservazioni. Su un corpus di 50 lettere in lingua inglese, documenti legali e diari risalenti ai secoli XVIII e XIX, gli LLM hanno superato Transkribus, un software specializzato di riconoscimento della scrittura a mano utilizzato da oltre 150 università e archivi, in termini di accuratezza, velocità e costo. Mentre Transkribus registrava un tasso di errore sui caratteri di circa l'8% su documenti non addestrati, l'approccio basato su LLM di Humphries ha ridotto questo valore a meno del 2%, completando il lavoro 50 volte più velocemente e a circa un cinquantesimo del costo. Di fronte a questi risultati, Transkribus ha annunciato l'integrazione dei Large Language Models nella propria piattaforma, riconoscendo il potenziale di questa tecnicia. Questa tendenza supporta la teoria di Richard Sutton, secondo cui i metodi generali che sfruttano la potenza di calcolo finiranno per superare quelli specializzati.

Implicazioni pratiche e la rilevanza per la sovranità dei dati

Le conseguenze pratiche di questa innovazione si stanno già manifestando in diverse istituzioni. Lianne Leddy, co-autrice della ricerca di Humphries, sta utilizzando questi strumenti per tracciare le esperienze delle donne indigene in Nord America attraverso diari di posti di scambio di pellicce, registri battesimali e di matrimonio, documenti spesso scritti da uomini con una prospettiva limitata sulle vite di queste donne. La possibilità di leggere migliaia di documenti per trovare pochi dettagli rilevanti sta trasformando la scala della ricerca storica.

Anche la University of North Carolina at Chapel Hill sta sperimentando la trascrizione AI su materiali di collezioni speciali, con un particolare successo nella gestione dei registri contabili, che presentano strutture tabulari variabili e sono sempre stati difficili da elaborare. Archivisti come Jackie Dean hanno notato che modelli come Gemini gestiscono le tabelle in modo eccezionale, rappresentando un significativo passo avanti. Allo stesso modo, la Federal Reserve Bank di Philadelphia sta utilizzando gli LLM per estrarre dati da registrazioni storiche di veicoli e atti di proprietà, aprendo nuove domande di ricerca economica che prima erano troppo costose da affrontare. Per chi valuta deployment on-premise, la gestione di dati storici sensibili, come registri personali, documenti governativi o storie familiari, solleva questioni cruciali di sovranità dei dati e conformità. L'adozione di LLM per queste applicazioni richiede un'attenta valutazione dei trade-off tra l'uso di API cloud pubbliche e soluzioni self-hosted o air-gapped, che garantiscono un controllo completo sui dati e sui processi di inference, un aspetto fondamentale per la sicurezza e la privacy delle informazioni archivistiche.

Prospettive future e la democratizzazione dell'accesso storico

Il percorso dell'AI nel riconoscimento della scrittura a mano è stato lungo e complesso. Dalle prime intuizioni di Yann LeCun negli anni '80, che vedeva il riconoscimento dei caratteri come un mezzo per esplorare la visione artificiale in un'epoca di risorse computazionali limitate, si è arrivati a sistemi moderni che leggono intere linee di testo e utilizzano modelli linguistici per interpretare il contesto. Sebbene LeCun consideri il problema ampiamente risolto per molti scopi generali, i progressi continuano ad essere cruciali per gruppi specializzati che lavorano con documenti storici particolarmente difficili. Anche un miglioramento marginale in velocità o affidabilità può sbloccare nuove possibilità di ricerca.

Mark Humphries sta portando avanti questo lavoro con Archive Pearl, uno strumento senza scopo di lucro attualmente in beta, progettato per consentire ai ricercatori di caricare centinaia di pagine e ottenere trascrizioni pulite in pochi minuti. L'obiettivo è la democratizzazione: rendere questi strumenti accessibili a un pubblico più ampio, non solo agli storici professionisti, ma anche a studenti universitari e a chiunque conduca ricerche genealogiche o familiari. La capacità di sbloccare testi in latino tecnico o altre forme arcaiche, che richiederebbero una vita di studio per essere compresi, rappresenta un ulteriore passo verso un accesso più inclusivo al patrimonio storico globale. Questo approccio on-premise o ibrido per la gestione di tali strumenti è fondamentale per le istituzioni che desiderano mantenere il controllo sui propri dati sensibili, garantendo al contempo un accesso più ampio e costi operativi ridotti.