xAI は Voice Agent Builder Beta を公開、Grok Voice ベンチマークテストが GPT を超える

XAI4.24%
GROK-0.47%

xAIは7月1日、Voice Agent Builder Beta版を発表しました。これは完全にコード不要のAI音声エージェント構築プラットフォームで、ユーザーは自然言語のプロンプトを使って2分以内にエンタープライズ級の音声エージェントを構築できます。このプラットフォームは、Grok Voiceと密接に結合したエンドツーエンドのSpeech-to-Speech単一音声パスを採用しており、ベンチマークテストではGPTを上回っています。

τ-voice Bench ベンチマークテスト:Grok Voice Think Fast 1.0 がGPTを凌駕

xAI AI語音代理建置平台 (出典:xAIウェブサイト)

xAIの公式発表によると、Grok Voice Think Fast 1.0はτ-voice Bench音声ベンチマークランキングで首位を獲得し、応答速度と推論能力の両方の指標でGoogle Gemini 3.1 Flash LiveとOpenAI GPT Realtime 1.5を直接上回りました。

xAIは、Grok Voiceは実際の通話シナリオで訓練されており、低品質の電話ノイズ、強いアクセント、ユーザーの途中割り込み、曖昧な指示などの最も困難な状況をカバーし、25以上の言語をネイティブにサポートしていると説明しています。

エンドツーエンドのSpeech-to-Speechアーキテクチャ:従来のSTT+LLM+TTS組み合わせ方式に代わる単一音声パス

xAIの公式説明によると、従来のエンタープライズAI音声カスタマーサービスは、音声をテキストに変換するSTT、大規模言語モデル(LLM)、テキストを音声に変換するTTSという3つの独立したシステムを接続する必要があり、この組み合わせ方式はマルチホップのレイテンシーを増加させ、エラー率と運用コストを上昇させます。

Voice Agent Builderは、Grok Voiceと密接に結合したエンドツーエンドのSpeech-to-Speech単一音声パスを採用しており、音声処理の全フローをセグメントで切り替えることなく、レイテンシーを低減し、継ぎ目のエラーを減少させることを目的としています。

ナレッジベース、ツール連携、音声クローン、電話連携:4つの主要機能仕様

xAIの公式機能説明によると、Voice Agent Builderの4つの主要機能モジュールの仕様は以下の通りです。

ナレッジベース(Knowledge Base):Word、Excel、PDF、JSONなどの形式をアップロード可能。エージェント間で共有できるコレクションに整理でき、製品仕様やポリシーの一貫性を確保。

ツールとコネクター(Tools & Connectors):Google/Outlookカレンダー、Web検索、X(Twitter)検索、Notionを内蔵。有人オペレーターへの転送、通話終了、リアルタイムチーム通知をサポート。

音声と電話(Voice & Telephony):80以上の内蔵音声を提供。わずか2分の音声でブランド音声クローンを作成可能。xAI提供の電話番号を無料で取得可能、またはSIP経由で既存のPBXシステムと連携可能。

透明な料金(Pricing):計算API料金は1分あたり0.05米ドルで、追加のプラットフォーム料金は不要。xAI提供の電話番号を使用する場合、通信料として1分あたり0.01米ドルが追加でかかる。

エンタープライズセキュリティ:自動録音・文字起こし、ツール使用記録、会話境界設定

xAIの公式発表によると、Voice Agent Builderはエンタープライズ向けに監視メカニズム(Observability)とセーフガード(Guardrails)を内蔵:各通話は自動録音され文字起こしが生成。管理者はいつでもAIが通話中に使用したツールの記録を確認可能。また、厳格な会話境界を設定でき、例えばAIが顧客のクレジットカード番号を読み上げることを強制的に禁止したり、ユーザーとの政治的な話題を禁止したりできる。

xAIは公式発表で次のように述べている:「耳で判断する方がベンチマークを見るよりも正確だ——エージェントを構築し、最も困難なワークフローで電話をかけてみてください。」

よくある質問

xAI Voice Agent Builderの計算料金はいくらですか?

xAIの公式発表によると、計算API料金は1分あたり0.05米ドルで、追加のプラットフォーム料金は不要。xAIが無料提供する電話番号を使用する場合、通信料として1分あたり0.01米ドルが追加でかかります。

Grok Voice Think Fast 1.0のτ-voice Benchでのパフォーマンスは?

xAIの公式発表によると、Grok Voice Think Fast 1.0はτ-voice BenchベンチマークテストでGoogle Gemini 3.1 Flash LiveとOpenAI GPT Realtime 1.5を凌駕し、応答速度と推論能力の両方でランキング首位を獲得しました。

xAI Voice Agent Builderは現在どこで試用できますか?

xAIの公式発表によると、Voice Agent Builder Beta版はxAI Consoleで正式にリリースされ、試用可能です。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし