Beatingによれば、Step Cosmosのエンドツーエンドのリアルタイム音声モデルであるStep Audio 2.5 Realtimeは、2026年4月にオープンプラットフォームAPIで公開されました。このモデルは、カスタマイズ可能なキャラクターパーソナと、(声の)パラ言語的な知覚(トーン、間、ため息)による自然な会話を重視しています。
公式のテストでは5つの次元すべてで、Step Audio 2.5 Realtimeが各カテゴリで1位を獲得しました。主観評価スコア(実ユーザーのスマホアプリの会話)は80.41に達し、GPT-Realtime-1.5は68.01、Gemini Liveは67.16でした。音声Q&Aベンチマークのスコアは79.80で、GPT-Realtime-1.5の53.20のほぼ1.5倍です。APIの料金:入力トークン100万あたり10元(キャッシュヒット時は2元)、出力トークン100万あたり70元。継続的な音声通話は1時間あたり約3.8元と見積もられています。