De acordo com Beating, a OpenAI lançou três modelos de voz em sua Realtime API: GPT-Realtime-2 para conversas de voz com raciocínio, GPT-Realtime-Translate para tradução em tempo real e GPT-Realtime-Whisper para transcrição em streaming. O GPT-Realtime-2 é o primeiro modelo de voz da OpenAI com capacidade de raciocínio no nível do GPT-5, expandindo a janela de contexto de 32K para 128K tokens, com suporte a até 1-2 horas de conversa densa.
O GPT-Realtime-2 melhorou 15,2% no benchmark Big Bench Audio e 13,8% no Audio MultiChallenge em comparação ao GPT-Realtime-1.5. O GPT-Realtime-Translate oferece suporte a 70+ idiomas de entrada, traduzindo para 13 idiomas de saída. Preços: GPT-Realtime-2 a US$ 32/milhão de tokens de entrada e US$ 64/milhão de tokens de saída; Translate a US$ 0,034/minuto; Whisper a US$ 0,017/minuto.