百度のPaddlePaddleチームは最近、PP-OCRv6という新しいOCRシステムをリリースしました。3つのバージョンがあり、それぞれTiny(1.5Mパラメータ)、Small(7.7M)、Medium(34.5M)です。Mediumモデルは、PP-OCRv5と比べて検出精度を4.6%向上させ、認識精度を5.1%向上させると同時に、中国語、英語、日本語、そして46のラテン文字言語を単一の統一モデルに統合しています。
このシステムは、計算オーバーヘッドを削減しながら精度を高める構造的な再パラメータ化手法を採用しています。OpenVINOの最適化のもとでは、Mediumバージョンは最大で5.2倍の高速なCPU推論速度を実現します。公式ベンチマークによると、PP-OCRv6は、数億パラメータ規模の一部のビジョン言語モデルの性能に匹敵、またはそれを上回る一方で、使用しているのは数百万パラメータのみです。コードはオープンソースのPaddleOCRプロジェクトに統合されています。