OpenAI lança três modelos de voz na API em tempo real; GPT-Realtime-2 oferece janela de contexto de 128K

De acordo com Beating, a OpenAI lançou três modelos de voz em sua Realtime API: GPT-Realtime-2 para conversas de voz com raciocínio, GPT-Realtime-Translate para tradução em tempo real e GPT-Realtime-Whisper para transcrição em streaming. O GPT-Realtime-2 é o primeiro modelo de voz da OpenAI com capacidade de raciocínio no nível do GPT-5, expandindo a janela de contexto de 32K para 128K tokens, com suporte a até 1-2 horas de conversa densa.

O GPT-Realtime-2 melhorou 15,2% no benchmark Big Bench Audio e 13,8% no Audio MultiChallenge em comparação ao GPT-Realtime-1.5. O GPT-Realtime-Translate oferece suporte a 70+ idiomas de entrada, traduzindo para 13 idiomas de saída. Preços: GPT-Realtime-2 a US$ 32/milhão de tokens de entrada e US$ 64/milhão de tokens de saída; Translate a US$ 0,034/minuto; Whisper a US$ 0,017/minuto.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários