За даними Beating, Step Audio 2.5 Realtime, наскрізна модель голосу для реального часу від Step Cosmos, була запущена в квітні 2026 року на її відкритій платформі API. Модель робить акцент на природній розмові з можливістю налаштовувати персоналії персонажів і паралінгвістичне сприйняття (тон, паузи, зітхання).

Під час офіційного тестування за п’ятьма вимірами Step Audio 2.5 Realtime посіла перше місце в усіх категоріях. Суб’єктивний оціночний бал (розмови в мобільному застосунку реальних користувачів) досяг 80,41 проти 68,01 для GPT-Realtime-1.5 і 67,16 для Gemini Live. Бенчмарк для Voice Q&A набрав 79,80 — майже в 1,5 раза більше за 53,20 GPT-Realtime-1.5. Ціни на API: 10 юанів за мільйон вхідних токенів (2 юані за наявності кеш-попадань), 70 юанів за мільйон вихідних токенів; безперервні голосові дзвінки оцінюються в 3,8 юаня на годину.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-08 05:11

SNS запускає MCP-протокол, який дає змогу AI-агентам керувати доменами .sol, 7 травня

05-08 02:01

OpenAI перемикає ChatGPT на модель GPT-5.5 за замовчуванням миттєво, зменшує галюцинації на 52,5%

05-08 01:25

OpenAI випустила три голосові моделі в Realtime API; GPT-Realtime-2 має вікно контексту на 128K

05-08 00:42

OpenAI запустила функцію безпечних перевірених контактів учора, щоб попереджати користувачів про ризик

05-08 00:08

OpenAI запускає модель GPT-5.5-Cyber і фреймворк Trusted Access для кіберзахисників

Поглиблений аналіз