Thinking Machines lança modelo de interação com resposta de 200 ms, superando o GPT-Realtime-2.0

De acordo com Beating, Thinking Machines, o laboratório fundado pela ex-CTO da OpenAI Mira Murati, lançou uma pré-visualização de pesquisa do seu modelo Interaction, com processamento nativo em áudio e vídeo em tempo real, com respostas micro-turn de 200 milissegundos. O modelo permite ouvir, ver e falar em simultâneo, ao mesmo tempo que suporta interrupções em tempo real por parte do utilizador.

O modelo TML-Interaction-Small utiliza uma arquitetura MoE com 276 mil milhões de parâmetros, com 12 mil milhões de parâmetros ativados por inferência. Os dados oficiais mostram uma latência de alternância de turnos de fala de 0,40 segundos e uma pontuação FD-bench V1.5 de 77,8, ambas a exceder GPT-Realtime-2.0 e Gemini 3.1 Flash Live. Está prevista uma disponibilização limitada da pré-visualização para os próximos meses.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário