Kreuzberg, un framework open source scritto in Rust per l'estrazione di dati da documenti, ha rilasciato la versione 4.3.0. Questa nuova versione introduce miglioramenti nelle prestazioni e aggiunge PaddleOCR come backend opzionale, grazie a un'integrazione nativa in Rust.

Benchmark comparativi

Sono stati pubblicati nuovi benchmark comparativi che mettono a confronto Kreuzberg con altri strumenti di estrazione dati, tra cui Apache Tika, Docling, Unstructured, PDFPlumber, PyMuPDF4LLM, MarkItDown e Mineru. I test sono eseguiti in ambiente Linux standardizzato, misurando throughput, durata dell'estrazione, consumo di memoria, utilizzo della CPU, latenza e qualitร  dell'estrazione. I risultati mostrano un throughput significativamente piรน elevato per documenti come PDF, DOCX, PPTX e HTML.

Novitร  nella versione 4.3.0

La versione 4.3.0 introduce il supporto per PaddleOCR tramite un'integrazione nativa in Rust, con download e caching automatico dei modelli. Attualmente, sono supportate sei lingue: inglese, cinese, giapponese, coreano, tedesco e francese. Questa integrazione facilita la creazione di pipeline che richiedono OCR di alta qualitร  per le lingue asiatiche. รˆ stata aggiunta anche l'estrazione di dati strutturati da documenti, ampliato il supporto per diversi formati e rimosso LibreOffice come dipendenza, introducendo l'estrazione nativa per formati legacy come .doc e .ppt. La riduzione delle dipendenze esterne semplifica il deployment e riduce le dimensioni dell'installazione, soprattutto in ambienti containerizzati.

Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.