Kreuzberg, un framework open source scritto in Rust per l'estrazione di dati da documenti, ha rilasciato la versione 4.3.0. Questa nuova versione introduce miglioramenti nelle prestazioni e aggiunge PaddleOCR come backend opzionale, grazie a un'integrazione nativa in Rust.
Benchmark comparativi
Sono stati pubblicati nuovi benchmark comparativi che mettono a confronto Kreuzberg con altri strumenti di estrazione dati, tra cui Apache Tika, Docling, Unstructured, PDFPlumber, PyMuPDF4LLM, MarkItDown e Mineru. I test sono eseguiti in ambiente Linux standardizzato, misurando throughput, durata dell'estrazione, consumo di memoria, utilizzo della CPU, latenza e qualitร dell'estrazione. I risultati mostrano un throughput significativamente piรน elevato per documenti come PDF, DOCX, PPTX e HTML.
Novitร nella versione 4.3.0
La versione 4.3.0 introduce il supporto per PaddleOCR tramite un'integrazione nativa in Rust, con download e caching automatico dei modelli. Attualmente, sono supportate sei lingue: inglese, cinese, giapponese, coreano, tedesco e francese. Questa integrazione facilita la creazione di pipeline che richiedono OCR di alta qualitร per le lingue asiatiche. ร stata aggiunta anche l'estrazione di dati strutturati da documenti, ampliato il supporto per diversi formati e rimosso LibreOffice come dipendenza, introducendo l'estrazione nativa per formati legacy come .doc e .ppt. La riduzione delle dipendenze esterne semplifica il deployment e riduce le dimensioni dell'installazione, soprattutto in ambienti containerizzati.
Per chi valuta deployment on-premise, esistono trade-off da considerare. AI-RADAR offre framework analitici su /llm-onpremise per valutare questi aspetti.
๐ฌ Commenti (0)
๐ Accedi o registrati per commentare gli articoli.
Nessun commento ancora. Sii il primo a commentare!