أطلقت Step Audio الإصدار 2.5 من الصوت في الوقت الفعلي: درجة تقييم ذاتية 80.41، وتتفوق على GPT-Realtime-1.5 بنسبة 18%، وتكلفة مكالمات الصوت تبلغ 3.8 يوان/ساعة

وفقاً لبيتينغ، أطلقت Step Cosmos نموذج Step Audio 2.5 Realtime الشامل للغناء/الصوت في الوقت الفعلي من طرف إلى طرف على واجهة برمجة التطبيقات ضمن منصتها المفتوحة في أبريل 2026. يركز النموذج على محادثات طبيعية مع إمكانية تخصيص شخصيات الشخصيات، وإدراك غير لغوي (النبرة والتوقفات والأنفاس).

في الاختبارات الرسمية عبر خمس أبعاد، احتل Step Audio 2.5 Realtime المركز الأول في جميع الفئات. وصل تقييم التقييم الذاتي (محادثات داخل تطبيق الهاتف لدى المستخدمين الحقيقيين) إلى 80.41، مقابل 68.01 لـ GPT-Realtime-1.5 و67.16 لـ Gemini Live. وسجل معيار Voice Q&A 79.80، أي قريب من 1.5 مرة أداء GPT-Realtime-1.5 البالغ 53.20. تسعير واجهة البرمجة: 10 يوان مقابل مليون رمز إدخال (و2 يوان مع نجاحات الوصول من ذاكرة التخزين المؤقت)، و70 يوان مقابل مليون رمز إخراج، مع تقدير مكالمات الصوت المتواصلة بنحو 3.8 يوان لكل ساعة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات