Unlimited-OCR: il modello multilingue da 3.3B che analizza documenti senza ritagli

L’OCR su interi documenti ha spesso significato ritagliare, assemblare, perdere contesto. Unlimited-OCR ribalta la prospettiva: una sola passata su immagini, PDF e fascicoli multipagina, con 32.000 token di output che permettono di estrarre testo e struttura senza spezzettare il flusso.

Dal ritaglio all’analisi globale

Nei flussi di lavoro tradizionali, il parsing OCR viene applicato a regioni pre-ritagliate, perdendo la relazione tra elementi distanti nella pagina. Unlimited-OCR nasce per elaborare il documento nella sua interezza, gestendo impaginazioni reali grazie a due modalità distinte: “base” per testi lineari e “gundam” per layout complessi come tabelle e colonne multiple. Invece di forzare un unico encoder, il modello lascia scegliere il preprocessing più adatto, riducendo la dipendenza da pipeline esterne.

Una licenza che apre le porte al self-hosted

La licenza MIT non è un dettaglio: consente integrazione in prodotti proprietari, fine-tuning su dati sensibili e installazione su server locali senza costi di licenza. Per chi valuta deployment on-premise, questo cambia i conti. I dati non escono dal perimetro aziendale e il modello può essere adattato a domini specifici (legale, medico, fiscale) senza vincoli vendor. AI-RADAR ha più volte segnalato come la combinazione licenza aperta + dimensioni contenute sia il motore di una nuova ondata di document intelligence gestita internamente.

SGLang e streaming: l’inference diventa componente industriale

Il serving tramite SGLang con interfaccia compatibile OpenAI e risposte in streaming avvicina Unlimited-OCR agli stack già in uso per altri LLM. In un contesto on-premise, ciò significa poter condividere GPU e sistemi di orchestrazione (Kubernetes, Docker) senza introdurre servizi dedicati, contenendo il TCO. Il modello da 3.3B parametri, anche in FP16, occupa meno di 7 GB di VRAM, rendendolo adatto a schede consumer o datacenter con budget ridotti. La finestra di output a 32K permette di processare interi contratti o relazioni tecniche senza suddividerli, un vantaggio architetturale oltre che pratico.

Oltre DeepSeek-OCR: il senso della mossa

Il progetto si rifà esplicitamente allo stile di DeepSeek-OCR, ma alza l’asticella con output più lungo e supporto multilingue. La pubblicazione su ModelScope — piattaforma cinese che compete con Hugging Face — segnala l’intenzione di raggiungere un pubblico globale di sviluppatori e system integrator. Per i decisori IT, il tema non è se Unlimited-OCR batterà ogni benchmark, ma se la combinazione licenza-dimensione-serving sia sufficiente per portare l’OCR di documenti critici all’interno del perimetro aziendale. I trade-off restano: qualità su scritture non latine, gestione di scansioni a bassa risoluzione, integrazione con database documentali. Ma la direzione — modelli aperti, compatti, pronti per l’on-premise — appare ormai chiara.