xAI开放Grok STT与TTS音频API,STT整体词错率压到6.9%
ME News 报道,xAI 推出两项独立音频 API:Grok STT 与 Grok TTS,源自同一音频栈,支持 Grok Voice、特斯拉车载系统及 Starlink 客服等。STT 提供 REST 批量转录与 WebSocket 实时流,具词级时间戳、说话人分离、多通道与逆文本归一化,覆盖 25+ 种语言;TTS 支持情感与韵律的内联标签。并公布 WER 对比,Grok 在多场景领先,尚无第三方复测。定价:STT 批处理 0.10 美元/小时、流式 0.20 美元/小时,TTS 4.20 美元/百万字符。