Step Audio 2.5 Real-time выпущена: субъективная оценка 80,41 — обходит GPT-Realtime-1.5 на 18%, звонки стоят 3,8 юаня в час

По данным Beating, Step Audio 2.5 Realtime — сквозная модель голоса в режиме реального времени от Step Cosmos — запущена на её открытой платформенной API в апреле 2026 года. Модель делает акцент на естественном общении с настраиваемыми персонажами и паралингвистическим восприятием (тон, паузы, вздохи).

В официальном тестировании по пяти направлениям Step Audio 2.5 Realtime заняла первое место во всех категориях. Субъективный оценочный балл (разговоры в телефонном приложении с реальными пользователями) достиг 80,41 по сравнению с 68,01 для GPT-Realtime-1.5 и 67,16 для Gemini Live. Бенчмарк Voice Q&A набрал 79,80 — почти в 1,5 раза больше, чем 53,20 у GPT-Realtime-1.5. Ценообразование API: 10 юаней за миллион входных токенов (2 юаня при совпадениях с кэшем), 70 юаней за миллион выходных токенов; непрерывные голосовые звонки оцениваются в 3,8 юаня в час.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев