Ingegneria del contesto: analisi di un milione di email

Un gruppo di tecnici ha recentemente condiviso le proprie scoperte dopo aver analizzato oltre un milione di email con l'obiettivo di trasformarle in un contesto strutturato utilizzabile per agenti di intelligenza artificiale. L'esperienza ha portato a diverse constatazioni.

Sfide principali

La ricostruzione dei thread di conversazione si è rivelata più complessa del previsto, a causa di risposte, inoltri, partecipanti che si uniscono a metà discussione e decisioni riviste più avanti. I sistemi che si limitano a concatenare il testo in ordine cronologico spesso falliscono perché perdono di vista chi ha detto cosa e perché è importante.

Gli allegati, come PDF, contratti e fatture, costituiscono una parte essenziale della conversazione e richiedono funzionalità di OCR (riconoscimento ottico dei caratteri) e di analisi strutturale per essere interpretati correttamente.

Le conversazioni multilingue sono più comuni di quanto si pensi, soprattutto in team internazionali. La ricerca semantica ottimizzata per l'inglese perde efficacia quando è richiesta la comprensione tra lingue diverse.

Privacy e performance

La conservazione dei dati è un tema delicato, e molti clienti aziendali richiedono che non vengano conservati dati. Il team ha scelto di scartare ogni prompt dopo l'elaborazione, ricostruendo la memoria su richiesta dalle fonti originali.

In termini di performance, il sistema raggiunge circa 200ms per il recupero delle informazioni e circa 3 secondi per la generazione del primo token, anche con caselle di posta di grandi dimensioni. La maggior parte del tempo è spesa nella fase di ragionamento, non nella ricerca.