По данным Beating, Step Audio 2.5 Realtime — сквозная модель голоса в режиме реального времени от Step Cosmos — запущена на её открытой платформенной API в апреле 2026 года. Модель делает акцент на естественном общении с настраиваемыми персонажами и паралингвистическим восприятием (тон, паузы, вздохи).

В официальном тестировании по пяти направлениям Step Audio 2.5 Realtime заняла первое место во всех категориях. Субъективный оценочный балл (разговоры в телефонном приложении с реальными пользователями) достиг 80,41 по сравнению с 68,01 для GPT-Realtime-1.5 и 67,16 для Gemini Live. Бенчмарк Voice Q&A набрал 79,80 — почти в 1,5 раза больше, чем 53,20 у GPT-Realtime-1.5. Ценообразование API: 10 юаней за миллион входных токенов (2 юаня при совпадениях с кэшем), 70 юаней за миллион выходных токенов; непрерывные голосовые звонки оцениваются в 3,8 юаня в час.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-08 05:11

SNS запускает протокол MCP, позволяющий агентам ИИ управлять доменами .sol 7 мая

05-08 02:01

OpenAI переключает ChatGPT на модель GPT-5.5 по умолчанию — мгновенно, снижает галлюцинации на 52,5%

05-08 01:25

OpenAI выпускает три голосовые модели в Realtime API; GPT-Realtime-2 предлагает контекстное окно на 128K

05-08 00:42

OpenAI запускает функцию безопасных доверенных контактов вчера, чтобы предупреждать пользователей о риске

05-08 00:08

OpenAI запускает модель GPT-5.5-Cyber и фреймворк Trusted Access для защитников кибербезопасности

Детальный анализ