OpenAI 於即時 API 發布三款語音模型;GPT-Realtime-2 具備 128K 上下文窗口

根據 Beating,OpenAI 在其 Realtime API 中發布了三款語音模型:GPT-Realtime-2 用於具有推理能力的語音對話、GPT-Realtime-Translate 用於即時翻譯,以及 GPT-Realtime-Whisper 用於串流轉錄。GPT-Realtime-2 是 OpenAI 首款具備 GPT-5 等級推理能力的語音模型,將上下文視窗從 32K 擴展至 128K tokens,並支援最多 1-2 小時的高密度對話。

相較於 GPT-Realtime-1.5,GPT-Realtime-2 在 Big Bench Audio 基準上提升了 15.2%,在 Audio MultiChallenge 上提升了 13.8%。GPT-Realtime-Translate 支援 70+ 種輸入語言,翻譯為 13 種輸出語言。定價:GPT-Realtime-2 的輸入為 3.2萬美元/百萬輸入 tokens、輸出為 64 萬美元/百萬輸出 tokens;Translate 為 0.034 美元/分鐘;Whisper 為 0.017 美元/分鐘。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆