Mistral AI ha annunciato l'uscita della versione 4 del suo modello OCR, dedicato all’analisi documentale. Questa tecnologia non si limita più alla semplice estrazione del testo da formati come PDF e documenti, ma aggiunge anche la strutturazione del contenuto. Le funzioni aggiornate includono l'indicazione delle posizioni dei blocchi di testo, la classificazione degli elementi riconosciuti e una misurazione dell'affidabilità a livello di parole e pagine. Questo posiziona il modello come risorsa utile per applicazioni aziendali come sistemi di ricerca, RAG (Retrieval-Augmented Generation) e workflow simili.
La differenza rispetto al testo tradizionale OCR
Gli strumenti standard di Optical Character Recognition (OCR) restituiscono prevalentemente solo il testo grezzo di una pagina. Mistral OCR 4 va oltre: il modello segna ogni elemento rilevato con un box di delimitazione e assegna a ciascun contenuto un tipo specifico — come titolo, tabella, formula matematica o firma. Gli score di fiducia (confidence scores) mostrano quanto confidabile è l’identificazione. Questo approccio permette un'ulteriore gestione avanzata dei documenti.
Ad esempio, un motore di ricerca può indicizzare sia il testo che capire se un segmento è un titolo o un elemento tabulare. Un’applicazione di controllo può inviare all’utente gli elementi poco certi, mentre un flusso di lavoro editoriale o sulla conformità può evidenziare o occultare precise frasi nel documento originale.
Usi in ricerca, RAG e flussi di lavoro di agenti intelligenti
Secondo Mistral, OCR 4 è ideale per l’applicazione nella ricerca aziendale, nell’RAG e in pipeline specifiche. L’output strutturato permette di suddividere i documenti in blocchi semantici, preservando unità come tabelle o paragrafi. Questo è definito da Mistral come “semantico chunking”, in cui la struttura del documento decide la suddivisione, non la lunghezza delle pagine.
Gli agenti KI, che sono sistemi in grado non solo di leggere informazioni ma anche di attivarne l'elaborazione — come compilare moduli, gestire fatture o preparare verifiche di conformità — traggono vantaggio da un OCR che non si limiti all’estrazione di testo, ma riesca a comprendere la funzione strutturale di ogni elemento.
Supporto multilingue e hosting locale
OCR 4 offre, secondo Mistral, supporto per 170 lingue, distribuite in dieci gruppi linguistiche. Tra i gruppi citati ci sono inglese, lingue occidentalicheuropee, orienteuropene, cinese ed estremo-orientali. Vi è anche una categoria speciale che include lingue come hindi, giapponese, georgiano, bengalese e tamil. L’azienda sottolinea risultati migliorati per queste lingue e per quelle meno comuni, in cui altri sistemi spesso rivelano insufficienze.
Il modello può essere eseguito in un container dedicato su richiesta, rendendo OCR 4 adatto anche ad ambienti con alta esigenza di controllo dei dati, privacy e conformità. I formati supportati sono standard come PDF, DOC, PPT e OpenDocument.
Prestazioni e valutazioni
Mistral riporta test interni ed esterni per verificare le capacità di OCR 4. Secondo loro, il modello ha dato risultati superiori in media rispetto ad altri sistemi OCR e di AI per documenti. Nella piattaforma di benchmark OlmOCRBench, ha ottenuto 85,20 punti; su OmniDocBench invece 93,07.
Tuttavia, Mistral avverte che i risultati dei benchmark potrebbero non sempre riflettere realisticamente le performance reali, specialmente in casi particolari come formule matematiche, documenti a due colonne, o dati di riferimento errati. Per una valutazione veridica, l’azienda consiglia l’utilizzo diretto del proprio ambiente con documenti e workflow specifici.
Punti forti e debolezze
- Punto forte: Estrae testo, fornendo classificazioni strutturali e valutazioni di attendibilità.
- Punto forte: Funziona in 170 lingue, con particolare attenzione a quelle minoritare.
- Punto debole: Le misurazioni in benchmark non sempre anticipano le performance in contesti pratici.
Punti di accesso e API
OCR 4 è accessibile tramite API, permettendo l’estrazione di dati con delimitazione, tipi di blocco, punteggi di fiducia e testo strutturato simile a Markdown. Per chi ha bisogno di ulteriore organizzazione, sono disponibili funzioni aggiuntive di Document AI, come output in JSON con schemi definiti o l’interpretazione di contenuti con prompt estesi.
Mistral fa una distinzione: la configurazione base serve per l'estrazione pura, mentre i parametri aggiuntivi di Document AI soddisfano chi ha bisogno di campi preconfigurati, come per fatture o moduli. In base a quanto riportato, l’API OCR costa 4 dollari USA per 1000 pagine, mentre in batch arriva a 2 dollari per 1000 pagine; il Document AI aggiunge 5 dollari per 1000 pagine.
Disponibilità
Mistral OCR 4 e le sue funzionalità estese di Document AI sono già disponibili tramite la piattaforma Mistral Studio, Amazon SageMaker e Microsoft Foundry. Inoltre, è stata integrata nel Toolkit alla ricerca, che è ancora in anteprima pubblica.