A Baidu lança o PP-OCRv6 com suporte para 50 línguas, com parâmetros ao nível dos 10 milhões que correspondem a VLMs de escala de mil milhões

A equipa do PaddlePaddle da Baidu lançou recentemente o PP-OCRv6, um novo sistema de OCR que oferece três versões: Tiny (1,5M de parâmetros), Small (7,7M) e Medium (34,5M). O modelo Medium proporciona uma melhoria de 4,6% na precisão de detecção e de 5,1% na precisão de reconhecimento em comparação com o PP-OCRv5, ao mesmo tempo que integra chinês, inglês, japonês e 46 línguas em alfabeto latino num único modelo unificado.

O sistema utiliza técnicas de reparametrização estrutural para reduzir a sobrecarga computacional e aumentar a precisão. Com otimização OpenVINO, a versão Medium alcança até 5,2x mais velocidade de inferência em CPU. De acordo com benchmarks oficiais, o PP-OCRv6 corresponde ou supera o desempenho de alguns modelos visão-linguagem com mil milhões de parâmetros, apesar de usar apenas milhões de parâmetros. O código foi integrado no projeto open-source PaddleOCR.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário