Alibaba Qianwen lanza el modelo de lenguaje multimodal total Qwen3.5-Omni, con soporte para 113 tipos de reconocimiento de voz

Gate News, mensaje: el 30 de marzo, Alibaba Qianwen anunció el lanzamiento del modelo multimodal de gran escala Qwen3.5-Omni. Esta serie incluye versiones Instruct en tres tamaños: Plus, Flash y Light, que soportan un contexto de 256k, y permiten entradas de audio de más de 10 horas, así como entradas de video y audio en 720P (1FPS) de más de 400 segundos. El modelo se entrena de forma nativa en multimodalidad con preentrenamiento multimodal sobre grandes volúmenes de datos de texto, visión y más de 100 millones de horas de datos de audio y video, demostrando capacidades sobresalientes de percepción y generación multimodal. En comparación con la generación anterior Qwen3-Omni, Qwen3.5-Omni ha mejorado significativamente sus capacidades multilingües, pudiendo soportar reconocimiento de voz en 113 idiomas y dialectos, así como generación de voz en 36 idiomas y dialectos.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios