Baidu lanza PP-OCRv6 con compatibilidad de 50 idiomas; sus parámetros de nivel 10 millones coinciden con los VLM a escala de miles de millones

El equipo de PaddlePaddle de Baidu lanzó recientemente PP-OCRv6, un nuevo sistema de OCR que ofrece tres versiones: Tiny (1,5M parámetros), Small (7,7M) y Medium (34,5M). El modelo Medium ofrece una mejora del 4,6% en la precisión de detección y del 5,1% en la precisión de reconocimiento en comparación con PP-OCRv5, al tiempo que integra chino, inglés, japonés y 46 idiomas con alfabeto latino en un único modelo unificado.

El sistema emplea técnicas de reparametrización estructural para reducir la carga computacional y, a la vez, aumentar la precisión. Con la optimización de OpenVINO, la versión Medium logra hasta 5,2x más velocidad de inferencia en CPU. Según los puntos de referencia oficiales, PP-OCRv6 iguala o supera el rendimiento de algunos modelos visión-lenguaje de miles de millones de parámetros pese a usar solo millones de parámetros. El código se ha integrado en el proyecto de código abierto PaddleOCR.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios