Kreuzberg, un framework open-source (MIT) per la document intelligence scritto in Rust, ha rilasciato la versione 4.5.
Supporta 12 linguaggi di programmazione, tra cui Python, TypeScript/Node.js, PHP, Ruby, Java, C#, Go, Elixir, R, C e WASM. Kreuzberg รจ progettato per estrarre testo, struttura e metadati da oltre 88 formati di file, eseguire OCR, generare embeddings ed รจ pensato per pipeline AI e l'elaborazione di documenti su vasta scala.
Novitร nella versione 4.5
La principale novitร รจ che Kreuzberg ora comprende la struttura dei documenti (layout/tabelle), non solo il testo, grazie all'integrazione del modello RT-DETR v2 (Docling Heron) di Docling.
Kreuzberg integra questo modello in una pipeline nativa Rust, ottenendo un'estrazione del layout dei documenti che corrisponde alla qualitร di Docling, ma con una velocitร superiore di 2.8 volte, un minore overhead di memoria e senza dipendenze da Python.
I benchmark su 171 documenti PDF (articoli accademici, documenti governativi e legali, fatture, scansioni OCR) mostrano:
- Structure F1: Kreuzberg 42.1% vs Docling 41.7%
- Text F1: Kreuzberg 88.9% vs Docling 86.7%
- Tempo medio di elaborazione: Kreuzberg 1,032 ms/doc vs Docling 2,894 ms/doc
La velocitร รจ dovuta alla gestione nativa della memoria di Rust, all'estrazione del testo pdfium a livello di carattere, all'inference ONNX Runtime e al parallelismo Rayon tra le pagine.
Kreuzberg estrae il testo direttamente dal livello di testo nativo del PDF utilizzando pdfium, preservando le posizioni esatte dei caratteri, i metadati dei font (grassetto, corsivo, dimensione) e la codifica unicode. Il rilevamento del layout classifica e organizza questo testo in base alla struttura visiva del documento. Per le pagine senza un livello di testo nativo, Kreuzberg ripiega automaticamente su Tesseract OCR.
I PDF con tabelle CMap dei font danneggiate vengono ora corretti automaticamente tramite un'analisi dello spazio tra i caratteri a livello di pagina.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!