Baidu випускає PP-OCRv6 із підтримкою 50 мов, параметри рівня 10 млн відповідають VLM масштабів мільярдів

Команда PaddlePaddle від Baidu нещодавно випустила PP-OCRv6 — нову систему розпізнавання тексту (OCR) із трьома версіями: Tiny (1,5 млн параметрів), Small (7,7 млн) і Medium (34,5 млн). Модель Medium забезпечує на 4,6% вищу точність детекції та на 5,1% точність розпізнавання порівняно з PP-OCRv5, а також інтегрує китайську, англійську, японську та 46 мов латинської абетки в єдину уніфіковану модель.

У системі застосовуються техніки структурної репараметризації, щоб зменшити обчислювальне навантаження та підвищити точність. За оптимізації OpenVINO версія Medium досягає до 5,2 раза швидшого CPU-інференсу. Згідно з офіційними бенчмарками, PP-OCRv6 збігається або перевершує показники деяких моделей візуально-мовного типу з кількома мільярдами параметрів, хоча використовує лише мільйони параметрів. Код інтегровано в проєкт PaddleOCR з відкритим вихідним кодом.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів