xAI anunciou em 1º de julho o lançamento da versão Beta do Voice Agent Builder, uma plataforma de criação de agentes de voz AI totalmente sem código, que permite aos usuários criar um agente de voz empresarial em 2 minutos usando prompts em linguagem natural; a plataforma adota um caminho de voz único Speech-to-Speech de ponta a ponta, fortemente acoplado ao Grok Voice, superando a GPT em benchmarks.
(Fonte: site da xAI)
De acordo com o anúncio oficial da xAI, o Grok Voice Think Fast 1.0 ficou em primeiro lugar no ranking do benchmark de voz τ-voice Bench, superando diretamente o Google Gemini 3.1 Flash Live e o OpenAI GPT Realtime 1.5 nos dois indicadores de velocidade de resposta e capacidade de raciocínio.
A xAI explica que o Grok Voice é treinado com cenários de chamadas reais e projetados para serem os "mais difíceis", abrangendo ruídos de telefone de baixa qualidade, sotaques fortes, interrupções do usuário e comandos vagos, e suporta nativamente mais de 25 idiomas.
A xAI explica oficialmente que o atendimento ao cliente por voz AI empresarial tradicional precisa conectar três sistemas independentes: conversão de fala em texto (STT), modelo de linguagem grande (LLM) e conversão de texto em fala (TTS). Essa arquitetura montada aumenta a latência de múltiplos saltos e eleva a taxa de erros e os custos operacionais.
O Voice Agent Builder adota um caminho de voz único Speech-to-Speech de ponta a ponta, fortemente acoplado ao Grok Voice, sem alternância de segmentos em todo o fluxo de processamento de voz, visando reduzir a latência e diminuir os erros de conexão.
De acordo com a descrição oficial de recursos da xAI, as especificações dos quatro módulos principais do Voice Agent Builder são as seguintes:
Base de conhecimento (Knowledge Base): suporta upload de formatos como Word, Excel, PDF, JSON, que podem ser organizados em Collections compartilhadas entre agentes, garantindo consistência das especificações do produto e políticas
Ferramentas e conectores (Tools & Connectors): integra calendários do Google/Outlook, pesquisa na Web, pesquisa no X (Twitter) e Notion; suporta transferência para atendente humano, encerramento de chamadas e notificações em tempo real para a equipe
Voz e telefonia (Voice & Telephony): oferece mais de 80 vozes integradas; suporta clonagem de voz de marca com apenas 2 minutos de áudio; é possível obter gratuitamente um número de telefone fornecido pela xAI ou conectar o sistema de PABX existente via SIP
Preços transparentes (Pricing): taxa de API de computação é de US$ 0,05 por minuto, sem taxa de plataforma adicional; ao usar o número de telefone fornecido pela xAI, é cobrada uma taxa de comunicação adicional de US$ 0,01 por minuto
De acordo com o comunicado oficial da xAI, o Voice Agent Builder possui mecanismos integrados de observabilidade (Observability) e barreiras de segurança (Guardrails) para usuários empresariais: cada chamada é gravada automaticamente e gera uma transcrição literal; os administradores podem visualizar a qualquer momento o registro de ferramentas usadas pela IA durante a chamada; e é possível definir limites rígidos de diálogo, como proibir forçosamente que a IA leia o número do cartão de crédito do cliente ou proibir discussões políticas fora do assunto com o usuário.
A xAI declarou no comunicado oficial: "Julgar com os ouvidos é mais preciso do que olhar para benchmarks – crie um agente, ligue usando seu fluxo de trabalho mais difícil e experimente."
De acordo com o comunicado oficial da xAI, a taxa da API de computação é de US$ 0,05 por minuto, sem taxa de plataforma adicional; se for usado o número de telefone fornecido gratuitamente pela xAI, é cobrada uma taxa de comunicação adicional de US$ 0,01 por minuto.
De acordo com o comunicado oficial da xAI, o Grok Voice Think Fast 1.0 superou o Google Gemini 3.1 Flash Live e o OpenAI GPT Realtime 1.5 no benchmark τ-voice Bench, ficando em primeiro lugar no ranking nos dois indicadores de velocidade de resposta e capacidade de raciocínio.
De acordo com o comunicado oficial da xAI, a versão Beta do Voice Agent Builder já está disponível no xAI Console para testes.
Notícias relacionadas
Mecanismo de governança on-chain da Solana é lançado, propostas precisam de 15% de apoio em staking para entrar em votação.
Claude Sonnet 5 lançado, preço da API 60% mais barato que o Opus.
6 navegadores de IA foram enganados pelo jogo "2+2=5", e todas as credenciais SSH vazaram.
Meituan LongCat-2.0 open source: 1,6 trilhão de parâmetros, sem GPU NVIDIA