Команда PaddlePaddle від Baidu нещодавно випустила PP-OCRv6 — нову систему розпізнавання тексту (OCR) із трьома версіями: Tiny (1,5 млн параметрів), Small (7,7 млн) і Medium (34,5 млн). Модель Medium забезпечує на 4,6% вищу точність детекції та на 5,1% точність розпізнавання порівняно з PP-OCRv5, а також інтегрує китайську, англійську, японську та 46 мов латинської абетки в єдину уніфіковану модель.
У системі застосовуються техніки структурної репараметризації, щоб зменшити обчислювальне навантаження та підвищити точність. За оптимізації OpenVINO версія Medium досягає до 5,2 раза швидшого CPU-інференсу. Згідно з офіційними бенчмарками, PP-OCRv6 збігається або перевершує показники деяких моделей візуально-мовного типу з кількома мільярдами параметрів, хоча використовує лише мільйони параметрів. Код інтегровано в проєкт PaddleOCR з відкритим вихідним кодом.