Mistral AI ha annunciato oggi la nuova versione del suo modello di estrazione OCR, Mistral OCR 4. Questo aggiornamento introduce box di limitazione, classificazione di blocchi tipizzati e punteggi di attendibilità inline, insieme al testo estratto. Mistral OCR 4 è supportato in 170 lingue e può essere distribuito in modo autonomo all’interno di un singolo contenitore.

Mistral OCR 4

Mistral OCR 4 estrapola e struttura il contenuto da una vasta gamma di documenti. Le generazioni precedenti si concentravano su convertire una pagina in testo pulito e tabelle. OCR 4 invece restituisce una rappresentazione strutturata dell’intero documento.

Ogni blocco è localizzato con un box di limitazione e classificato per tipo. I tipi di blocco includono titoli, tabelle, equazioni, firme e altro. Vengono generati punteggi di attendibilità inline per ogni pagina e parola.

I sistemi successivi sono in grado di imparare non solo ciò che dice un documento, ma anche la posizione di ogni elemento, il ruolo che ricopre e il livello di confidenza del modello. Questo contesto aggiuntivo è essenziale per citazioni, censurazione e verifica con intervento umano.

Supporto multilinguistico e benchmark

OCR 4 supporta documenti in 170 lingue, con miglioramenti per lingue rare e a basso risorsivo. Mistral ha confrontato OCR 4 con modelli OCR AI-first, modelli di utilizzo generale, servizi di elaborazione documentale e l’OCR 3 di Mistral.

Un grande numero di annotatori indipendenti ha preferito OCR 4 su ogni sistema testato, con tassi di vittoria medi del 72%. L'analisi ha coinvolto 600+ documenti in 12+ lingue, forniti da vendor esterni. Gli annotatori hanno valutato l'output di ogni concorrente in base a OCR 4.

    • Su benchmark automatizzati, OCR 4 ha ottenuto 85,20 sull'OlmOCRBench pubblico.
    • Punteggio di 93,07 su OmniDocBench.
    • Risultati di 0,98 su Mistral’s Crawl Multilingual.
    • Rogo ha riferito un’accuratezza equivalente a costi ridotti del 8x e latenza inferiore del 17x rispetto ai parser agentic.
    • Anaqua ha contato su una velocità di elaborazione delle pagine 4x superiore.

Segmentazione e non solo estrazione del testo

I box di limitazione sono la richiesta più forte di Mistral, permettendo una precisa localizzazione del testo per evidenziazione contestuale e pipe line affidabili.

Tipi di blocchi e punteggi di attendibilità svolgono ruoli diversi. Essi sono fondamentali per citazioni fondate sul contenuto, redazione e verifiche in cui interviene l’uomo. Questa struttura supporta diversi carichi di lavoro successivi.

OCR 4 e la pipeline RAG

I blocchi puliti e classificati diventano unità di recupero migliori per i processi di generazione con supporto (RAG). Gli agenti guadagnano primitive strutturali con cui agire sugli documenti, non solo leggerli. Le connessioni ricevono output coerenti e strutturati per ingestione e indicizzazione.

Mistral Search Toolkit

OCR 4 funge da componente di ingresso del Mistral Search Toolkit,现已公开测试中。Search Toolkit è il framework open-source di ricerca componibile di Mistral. La sua uscita strutturata alimenta input pronti per citazioni nei processi di recupero e valutazione.

Usi con esempi

Elaborazione e estrazione del documento

Convertire un contratto multilingue in markdown strutturato pulito per l’indicizzazione.

Generazione con supporto (RAG)

Alimentare blocchi classificati in Search Toolkit per ottenere risposte fondate su fonti con citazioni.

Flussi di lavoro agentiali

Inviare ad un agente di fatturazione campi specifici e box per effettuare l'automazione completa del modulo.

Pipeline regolate per attendibilità

Invia le aree a bassa attendibilità agli operatori umani e approva automaticamente tutte le altre.

Cerca aziendale

Utilizza OCR 4 come componente di origine per l'indicizzazione e l'estraibilità di entità attraverso un archivio.

Applicazioni iniziali utenti

Gli utenti iniziali stanno utilizzando OCR 4 per trasformare le fatture in campi strutturati e digitalizzare gli archivi aziendali. Altri stanno estrattendo testo puro da rapporti tecnici o alimentando motori di ricerca aziendale.

Mistral chiarisce che OCR 4 è un modello di comprensione documentale, non un decisore. Non è adatto a diagnosiche mediche, giudizi legali o decisioni finanziarie di alto valore. Inoltre, non è adatto per sistemi sicurezze-critici, elaborazione in tempo reale o input non documentali come audio non processato o video.

Confronto: semplice estrazione vs. Document AI

OCR 4 è fornito con una singola endpoint API. Ogni richiesta esegue lo stesso modello e restituiscono sempre contenuti estratti, box, tipi di blocchi, punteggi di attendibilità e markdown. Ciò che varia è la quantità di personalizzazione che si applica.

Pure Extraction Mode

    • Come output Markdown, box, tipi di blocchi, punteggi di attendibilità.
    • Risposta OCR grezza.
    • Prezzo: $4 / 1.000 pagine ($2 in batch).
    • Self-hosting disponibile per gli utenti enterprise.

Document AI Mode

    • Output: JSON strutturato in formato definito dall'utente.
    • Risposta OCR integrata.
    • Chiamata vision-lang per la schema.
    • Prompt personalizzato: Sì, guida l'interpretazione o la sintesi.
    • Miglior adatto: utenti aziendali, pilota, senza logica di parsing.
    • Prezzo: $5 / 1.000 pagine.
    • Self-hosting disponibile per i clienti enterprise.

Lavorare con l’API

L’estrazione di base richiede un URL di un documento e restituisce pagine strutturate. Per ottenere blocchi tipizzati e box di limitazione devi settare include_blocks=True.

Gli esempi mostrano le interazioni con il codice, come importare e inizializzare Mistral OCR.

Richiesta estensione avanzata

Usare la granularità del punteggio di attendibilità a livello di parola per i moduli che richiedono l’approvazione umana. Mistral suggerisce il servizio di inferenza batch per attività ad alta quantità.

Strumento interattivo di esplorazione

Esiste un visual