Step Audio 2.5 リアルタイム版 発表:主観スコア 80.41。GPT-Realtime-1.5 を 18% 上回り、音声通話のコストは 3.8 元/時間

Beatingによれば、Step Cosmosのエンドツーエンドのリアルタイム音声モデルであるStep Audio 2.5 Realtimeは、2026年4月にオープンプラットフォームAPIで公開されました。このモデルは、カスタマイズ可能なキャラクターパーソナと、(声の)パラ言語的な知覚(トーン、間、ため息)による自然な会話を重視しています。

公式のテストでは5つの次元すべてで、Step Audio 2.5 Realtimeが各カテゴリで1位を獲得しました。主観評価スコア(実ユーザーのスマホアプリの会話)は80.41に達し、GPT-Realtime-1.5は68.01、Gemini Liveは67.16でした。音声Q&Aベンチマークのスコアは79.80で、GPT-Realtime-1.5の53.20のほぼ1.5倍です。APIの料金:入力トークン100万あたり10元(キャッシュヒット時は2元)、出力トークン100万あたり70元。継続的な音声通話は1時間あたり約3.8元と見積もられています。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし