أعلنت Baidu إصدار PP-OCRv6 مع دعم 50 لغة، وتطابق المعلمات بمستوى 10 ملايين مع نماذج VLM بحجم المليارات

أعلنت فرق Baidu الخاصة بـ PaddlePaddle مؤخراً عن PP-OCRv6، وهو نظام جديد للتعرّف الضوئي على الحروف (OCR) يقدم ثلاث نسخ: Tiny (1.5 مليون معلمة)، وSmall (7.7 مليون)، وMedium (34.5 مليون). يحقق نموذج Medium تحسناً بنسبة 4.6% في دقة الكشف و5.1% في دقة التعرّف مقارنةً بـ PP-OCRv5، مع دمج اللغات الصينية والإنجليزية واليابانية و46 لغة بالحروف اللاتينية ضمن نموذج موحّد واحد.

يعتمد النظام على تقنيات إعادة المعايرة الهيكلية لتقليل الكلفة الحاسوبية مع تعزيز الدقة. وضمن تحسين OpenVINO، يحقق إصدار Medium سرعة استدلال على وحدة المعالجة المركزية (CPU) أسرع حتى 5.2 مرات. ووفقاً لمقاييس الأداء الرسمية، يطابق PP-OCRv6 أو يتجاوز أداء بعض نماذج الرؤية-اللغة ذات مليار معلمة، رغم أنه يستخدم فقط ملايين من المعلمات. تمت إضافة الكود إلى مشروع PaddleOCR مفتوح المصدر.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات