根據 Beating 所述,Step Audio 2.5 Realtime 是由 Step Cosmos 推出的端到端即時語音模型,並於 2026 年 4 月在其開放平台 API 上線。該模型強調具自然對話能力,並可自訂角色人格與副語言感知(語調、停頓、嘆氣)。
在官方針對五個面向的測試中,Step Audio 2.5 Realtime 在所有類別中均名列第一。主觀評估分數(真實使用者手機 App 對話)達到 80.41,較 GPT-Realtime-1.5 的 68.01 與 Gemini Live 的 67.16 為高。語音問答基準得分為 79.80,幾乎是 GPT-Realtime-1.5 的 53.20 的 1.5 倍。API 定價:每 100 萬輸入 tokens 收費 10 元(快取命中時為 2 元),每 100 萬輸出 tokens 收費 70 元;持續語音通話估算為每小時 3.8 元。