PP-OCRv6 è la versione più recente del modello OCR universale di PaddleOCR. È progettato per funzionare su testi in documenti diversi, screenshot, immagini multilingue, schermi digitali, etichette industriali e testi di scene.
Esecuzione su Hugging Face
Utilizza PP-OCRv6 online per verificare in tempo reale le sue prestazioni. Il modello può essere integrato con PaddlePaddle, Transformers o ONNX Runtime backend per un utilizzo leggero e pronto per la produzione.
Dimensioni del modello e supporto multilingua
La famiglia di modelli PP-OCRv6 scala da 1,5 milioni a 34,5 milioni di parametri con tre livelli: tiny, small e medium. I livelli medium e small supportano fino a 50 lingue, come il Cinese Semplificato, il Cinese Tradizionale, l’Inglese, il Giapponese e 46 lingue latine.
Prestazioni su benchmark
Sul benchmark ufficiale di PaddleOCR, PP-OCRv6medium raggiunge un Hmean di rilevamento del 86,2% e un'accuratezza del riconoscimento del testo dell’83,2%. Rispetto a PP-OCRv5server, migliora il rilevamento testuale del +4,6% e il riconoscimento del testo del +5,1%.
Architettura e miglioramenti tecnici
PP-OCRv6 presenta upgrade tecnici sia a livello di rilevamento che di riconoscimento testuale. L’architettura utilizza PPLCNetV4 come backbone unificato per rilevamento e riconoscimento. Questi miglioramenti mirano a ottenere un'accuratezza maggiore mantenendo comunque modelli adatti a diversi ambienti di deployment.
Istruzioni per utilizzo e integrazione
Il modello offre tre livelli architetturali diversi per soddisfare diverse dimensioni e livelli di accuratezza. I modelli tiny, small e medium non sono modelli diversi: appartenenti alla stessa famiglia, condividono una direzione comune in termini architetturali.
- Il rilevamento testuale inizia con la fase del preprocessing.
- PP-OCRv6 utilizza RepLKFPN per migliorare il rilevamento testuale, ottimizzando l’inferenza in contesti reali come testi piccoli, densi, ruotati e con complessi fondi di immagine.
- Per il riconoscimento testuale, EncoderWithLightSVTR combina modellazione locale con attenzione globale, migliorando la precisione del riconoscimento in testi multilingue, testi di schermo e in contesti rumorosi o complicati.
Supporto multilingua
I livelli medium e small supportano fino a 50 lingue in un solo modello, incluso testo Cinese Semplificato, Cinese Tradizionale, Inglese, Giapponese e 46 lingue latine. Questo riduce la necessità di utilizzare diversi modelli OCR per lingue comuni.
Formati e backend
I risultati dell’OCR possono essere salvati in immagini visualizzabili e in formati JSON strutturati, pronti per applicazioni successive come documenti di analisi, estrazione, RAG, analisi o workflow automatizzati.
- PP-OCRv6 è compatibile con backend Transformer e PaddleOCR 3.7.
- I formati ONNX sono disponibili per ambienti che utilizzano ONNX Runtime.
- I modelli sono accessibili attraverso il Hugging Face Hub con diverse opzioni di formato tra cui safetensors, modelli Paddle e modelli ONNX.
Avvio e integrazione
PP-OCRv6 estende le funzioni di PaddleOCR aggiungendo una famiglia di modelli multilingue leggeri. Il rilascio include modelli con diversi parametri, fino a 50 supporti linguistici, con miglioramenti sulle versioni precedenti.
Con l’integrabilità con spazi Hugging Face, i modelli PP-OCRv6 offrono diverse opportunità di valutazione e implementazione.
- Esegui PP-OCRv6 direttamente con una demo online.
- Esplora gli asset modellativi accessibili all’interno della collezione.
- Utilizza il backend di inferenza che meglio si integra al proprio workflow OCR.