Thinking Machines lanza un modelo de interacción con una respuesta de 200 ms, superando a GPT-Realtime-2.0

Según Beating, Thinking Machines, el laboratorio fundado por la ex CTO de OpenAI Mira Murati, lanzó una vista previa de investigación de su modelo de Interacción, con procesamiento nativo de audio y video en tiempo real y respuestas de micro-turn de 200 milisegundos. El modelo permite escuchar, ver y hablar de forma simultánea, mientras admite interrupciones en tiempo real por parte del usuario.

El modelo TML-Interaction-Small utiliza una arquitectura MoE de 276 mil millones de parámetros, con 12 mil millones de parámetros activados por inferencia. Los datos oficiales muestran una latencia de cambio de turno de voz de 0,40 segundos y una puntuación FD-bench V1.5 de 77,8, ambas superando a GPT-Realtime-2.0 y a Gemini 3.1 Flash Live. Se planea un acceso limitado a la vista previa para los próximos meses.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios