أطلقت OpenAI ثلاثة نماذج صوتية في واجهة برمجة التطبيقات للزمن الفعلي؛ يتميّز GPT-Realtime-2 بنافذة سياق بحجم 128K

وفقاً لـBeating، أطلقت OpenAI ثلاثة نماذج صوتية في واجهة Realtime API الخاصة بها: GPT-Realtime-2 للمحادثة الصوتية مع الاستدلال، وGPT-Realtime-Translate للترجمة الفورية، وGPT-Realtime-Whisper لنسخ الصوت المتدفّق. يُعدّ GPT-Realtime-2 أول نموذج صوتي لدى OpenAI بقدرة استدلال بمستوى GPT-5، مع توسيع نافذة السياق من 32K إلى 128K رمزًا، ودعم ما يصل إلى 1-2 ساعة من محادثة كثيفة.

حسّن GPT-Realtime-2 بنسبة 15.2% على معيار Big Bench Audio وبنسبة 13.8% على Audio MultiChallenge مقارنةً بـGPT-Realtime-1.5. ويدعم GPT-Realtime-Translate أكثر من 70 لغة إدخال للترجمة إلى 13 لغة إخراج. التسعير: GPT-Realtime-2 بسعر 32 دولارًا لكل مليون رمز إدخال و64 دولارًا لكل مليون رمز إخراج؛ وTranslate بسعر 0.034 دولارًا لكل دقيقة؛ وWhisper بسعر 0.017 دولارًا لكل دقيقة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات