xAI lança Voice Agent Builder Beta, benchmark do Grok Voice supera GPT

XAI4,24%
GROK-0,47%

xAI anunciou em 1º de julho o lançamento da versão Beta do Voice Agent Builder, uma plataforma de criação de agentes de voz AI totalmente sem código, que permite aos usuários criar um agente de voz empresarial em 2 minutos usando prompts em linguagem natural; a plataforma adota um caminho de voz único Speech-to-Speech de ponta a ponta, fortemente acoplado ao Grok Voice, superando a GPT em benchmarks.

Benchmark τ-voice Bench: Grok Voice Think Fast 1.0 supera a GPT

xAI AI語音代理建置平台 (Fonte: site da xAI)

De acordo com o anúncio oficial da xAI, o Grok Voice Think Fast 1.0 ficou em primeiro lugar no ranking do benchmark de voz τ-voice Bench, superando diretamente o Google Gemini 3.1 Flash Live e o OpenAI GPT Realtime 1.5 nos dois indicadores de velocidade de resposta e capacidade de raciocínio.

A xAI explica que o Grok Voice é treinado com cenários de chamadas reais e projetados para serem os "mais difíceis", abrangendo ruídos de telefone de baixa qualidade, sotaques fortes, interrupções do usuário e comandos vagos, e suporta nativamente mais de 25 idiomas.

Arquitetura Speech-to-Speech de ponta a ponta: caminho de voz único substitui a arquitetura montada tradicional STT+LLM+TTS

A xAI explica oficialmente que o atendimento ao cliente por voz AI empresarial tradicional precisa conectar três sistemas independentes: conversão de fala em texto (STT), modelo de linguagem grande (LLM) e conversão de texto em fala (TTS). Essa arquitetura montada aumenta a latência de múltiplos saltos e eleva a taxa de erros e os custos operacionais.

O Voice Agent Builder adota um caminho de voz único Speech-to-Speech de ponta a ponta, fortemente acoplado ao Grok Voice, sem alternância de segmentos em todo o fluxo de processamento de voz, visando reduzir a latência e diminuir os erros de conexão.

Base de conhecimento, integração de ferramentas, clonagem de voz e acesso telefônico: especificações dos quatro principais recursos

De acordo com a descrição oficial de recursos da xAI, as especificações dos quatro módulos principais do Voice Agent Builder são as seguintes:

Base de conhecimento (Knowledge Base): suporta upload de formatos como Word, Excel, PDF, JSON, que podem ser organizados em Collections compartilhadas entre agentes, garantindo consistência das especificações do produto e políticas

Ferramentas e conectores (Tools & Connectors): integra calendários do Google/Outlook, pesquisa na Web, pesquisa no X (Twitter) e Notion; suporta transferência para atendente humano, encerramento de chamadas e notificações em tempo real para a equipe

Voz e telefonia (Voice & Telephony): oferece mais de 80 vozes integradas; suporta clonagem de voz de marca com apenas 2 minutos de áudio; é possível obter gratuitamente um número de telefone fornecido pela xAI ou conectar o sistema de PABX existente via SIP

Preços transparentes (Pricing): taxa de API de computação é de US$ 0,05 por minuto, sem taxa de plataforma adicional; ao usar o número de telefone fornecido pela xAI, é cobrada uma taxa de comunicação adicional de US$ 0,01 por minuto

Mecanismo de segurança empresarial: gravação automática com transcrição literal, registro de uso de ferramentas e definição de limites de diálogo

De acordo com o comunicado oficial da xAI, o Voice Agent Builder possui mecanismos integrados de observabilidade (Observability) e barreiras de segurança (Guardrails) para usuários empresariais: cada chamada é gravada automaticamente e gera uma transcrição literal; os administradores podem visualizar a qualquer momento o registro de ferramentas usadas pela IA durante a chamada; e é possível definir limites rígidos de diálogo, como proibir forçosamente que a IA leia o número do cartão de crédito do cliente ou proibir discussões políticas fora do assunto com o usuário.

A xAI declarou no comunicado oficial: "Julgar com os ouvidos é mais preciso do que olhar para benchmarks – crie um agente, ligue usando seu fluxo de trabalho mais difícil e experimente."

Perguntas frequentes

Qual é a taxa de computação do xAI Voice Agent Builder?

De acordo com o comunicado oficial da xAI, a taxa da API de computação é de US$ 0,05 por minuto, sem taxa de plataforma adicional; se for usado o número de telefone fornecido gratuitamente pela xAI, é cobrada uma taxa de comunicação adicional de US$ 0,01 por minuto.

Qual é o desempenho do Grok Voice Think Fast 1.0 no τ-voice Bench?

De acordo com o comunicado oficial da xAI, o Grok Voice Think Fast 1.0 superou o Google Gemini 3.1 Flash Live e o OpenAI GPT Realtime 1.5 no benchmark τ-voice Bench, ficando em primeiro lugar no ranking nos dois indicadores de velocidade de resposta e capacidade de raciocínio.

Onde o xAI Voice Agent Builder pode ser testado atualmente?

De acordo com o comunicado oficial da xAI, a versão Beta do Voice Agent Builder já está disponível no xAI Console para testes.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários