PP-OCRv6 è la versione più recente del modello OCR universale di PaddleOCR. È progettato per funzionare su testi in documenti diversi, screenshot, immagini multilingue, schermi digitali, etichette industriali e testi di scene.

Esecuzione su Hugging Face

Utilizza PP-OCRv6 online per verificare in tempo reale le sue prestazioni. Il modello può essere integrato con PaddlePaddle, Transformers o ONNX Runtime backend per un utilizzo leggero e pronto per la produzione.

Dimensioni del modello e supporto multilingua

La famiglia di modelli PP-OCRv6 scala da 1,5 milioni a 34,5 milioni di parametri con tre livelli: tiny, small e medium. I livelli medium e small supportano fino a 50 lingue, come il Cinese Semplificato, il Cinese Tradizionale, l’Inglese, il Giapponese e 46 lingue latine.

Prestazioni su benchmark

Sul benchmark ufficiale di PaddleOCR, PP-OCRv6medium raggiunge un Hmean di rilevamento del 86,2% e un'accuratezza del riconoscimento del testo dell’83,2%. Rispetto a PP-OCRv5server, migliora il rilevamento testuale del +4,6% e il riconoscimento del testo del +5,1%.

Architettura e miglioramenti tecnici

PP-OCRv6 presenta upgrade tecnici sia a livello di rilevamento che di riconoscimento testuale. L’architettura utilizza PPLCNetV4 come backbone unificato per rilevamento e riconoscimento. Questi miglioramenti mirano a ottenere un'accuratezza maggiore mantenendo comunque modelli adatti a diversi ambienti di deployment.

Istruzioni per utilizzo e integrazione

Il modello offre tre livelli architetturali diversi per soddisfare diverse dimensioni e livelli di accuratezza. I modelli tiny, small e medium non sono modelli diversi: appartenenti alla stessa famiglia, condividono una direzione comune in termini architetturali.

    • Il rilevamento testuale inizia con la fase del preprocessing.
    • PP-OCRv6 utilizza RepLKFPN per migliorare il rilevamento testuale, ottimizzando l’inferenza in contesti reali come testi piccoli, densi, ruotati e con complessi fondi di immagine.
    • Per il riconoscimento testuale, EncoderWithLightSVTR combina modellazione locale con attenzione globale, migliorando la precisione del riconoscimento in testi multilingue, testi di schermo e in contesti rumorosi o complicati.

Supporto multilingua

I livelli medium e small supportano fino a 50 lingue in un solo modello, incluso testo Cinese Semplificato, Cinese Tradizionale, Inglese, Giapponese e 46 lingue latine. Questo riduce la necessità di utilizzare diversi modelli OCR per lingue comuni.

Formati e backend

I risultati dell’OCR possono essere salvati in immagini visualizzabili e in formati JSON strutturati, pronti per applicazioni successive come documenti di analisi, estrazione, RAG, analisi o workflow automatizzati.

    • PP-OCRv6 è compatibile con backend Transformer e PaddleOCR 3.7.
    • I formati ONNX sono disponibili per ambienti che utilizzano ONNX Runtime.
    • I modelli sono accessibili attraverso il Hugging Face Hub con diverse opzioni di formato tra cui safetensors, modelli Paddle e modelli ONNX.

Avvio e integrazione

PP-OCRv6 estende le funzioni di PaddleOCR aggiungendo una famiglia di modelli multilingue leggeri. Il rilascio include modelli con diversi parametri, fino a 50 supporti linguistici, con miglioramenti sulle versioni precedenti.

Con l’integrabilità con spazi Hugging Face, i modelli PP-OCRv6 offrono diverse opportunità di valutazione e implementazione.

    • Esegui PP-OCRv6 direttamente con una demo online.
    • Esplora gli asset modellativi accessibili all’interno della collezione.
    • Utilizza il backend di inferenza che meglio si integra al proprio workflow OCR.