News | Gate News

Hoy

09:38

Huawei, USTC y la Universidad de Pekín logran una mejora de velocidad del 58% en Ascend A3 para el entrenamiento de modelos MoE

Beating informa que investigadores de Huawei, la Universidad de Ciencia y Tecnología de China (USTC) y la Universidad de Pekín presentaron HyperParallel-MoE, un marco de programación del compilador diseñado para los chips Ascend A3. El marco reduce la latencia en los módulos de computación de expertos MoE en un 36%, logrando una aceleración global del procesamiento de datos del 58% (1,49–1,58x más rápido) en clústeres de 256 nodos que ejecutan modelos tipo DeepSeek de 671B parámetros, mientras q

Más

00:45

Thinking Machines lanza un modelo de interacción con una respuesta de 200 ms, superando a GPT-Realtime-2.0

Noticias de la industria de la IA

Según Beating, Thinking Machines, el laboratorio fundado por la ex CTO de OpenAI Mira Murati, lanzó una vista previa de investigación de su modelo de Interacción, con procesamiento nativo de audio y video en tiempo real y respuestas de micro-turn de 200 milisegundos. El modelo permite escuchar, ver y hablar de forma simultánea, mientras admite interrupciones en tiempo real por parte del usuario. El modelo TML-Interaction-Small utiliza una arquitectura MoE de 276 mil millones de parámetros, con 1

Más

16:30

NVIDIA lanza el modelo multimodal Nemotron 3 Nano Omni con una mejora de 9x en el rendimiento

Noticias de la industria de la IA

Mensaje de Gate News, 28 de abril — NVIDIA ha lanzado Nemotron 3 Nano Omni, un modelo multimodal de código abierto que presenta una arquitectura (MoE) de mixture-of-experts (30B-A3B) con compatibilidad con una ventana de contexto de 256K. El modelo unifica el procesamiento de entradas de video, audio, imagen y texto en un único marco. En comparación

Más

03:21

Los datos de entrenamiento de DeepSeek V4 se duplicaron hasta 33T, lo que provocó una inestabilidad que retrasó el lanzamiento

Noticias de la industria de la IA

Mensaje de Gate News, 24 de abril — El informe técnico de V4 de DeepSeek revela que V4-Flash y V4-Pro fueron preentrenados con 32T y 33T tokens, respectivamente, duplicando los aproximadamente 15T tokens usados para V3. El informe reconoce haber encontrado "retos importantes de inestabilidad" durante el entrenamiento, con picos de pérdida que ocurren repetidamente debido a anomalías en la capa Mixture-of-Experts MoE; el mecanismo de enrutamiento en sí mismo agrava estas anomalías, y un simple rollback no puede resolver el problema.

Más

03:04

DeepSeek lanza la serie de modelos de código abierto V4 con 1,6T de parámetros y licencia MIT

Noticias de la industria de la IA

Mensaje de Gate News, 24 de abril — DeepSeek ha lanzado la serie V4 de modelos de código abierto bajo la Licencia MIT, con pesos ahora disponibles en Hugging Face y ModelScope. La serie incluye dos modelos (MoE) de mezcla de expertos: V4-Pro con 1,6 billones de parámetros totales y 49 mil millones activados por token, con

Más

08:52

Tencent lanza y abre código de la vista previa de Hunyuan Hy3 con 295B de parámetros

Noticias de la industria de la IA

Mensaje de Gate News, 23 de abril — Tencent presentó y lanzó como código abierto una vista previa de Hunyuan Hy3, un modelo de lenguaje híbrido de mezcla de expertos (MoE) que incorpora la fusión entre pensamiento rápido y lento. El modelo consta de 295 mil millones de parámetros totales con 21 mil millones de parámetros activos, y admite una longitud máxima de contexto de 256K

Más

13:41

El laboratorio Qwen Lab de Alibaba abre el modelo Qwen3.6-35B-A3B con arquitectura MoE dispersa

Noticias de la industria de la IA

El laboratorio Qwen Lab de Alibaba ha lanzado Qwen3.6-35B-A3B, un modelo de lenguaje grande de código abierto con una arquitectura de mezcla de expertos (mixture-of-experts) dispersa, que cuenta con 35 mil millones de parámetros y capacidades de programación agentica para su integración con asistentes de programación de terceros.

Más

01:51

Meituan lanza LongCat-Next de código abierto: comprensión visual, generación y reconocimiento de voz unificados con 3B de parámetros

LongCat-Next, lanzado por el equipo Meituan Longcat, es un modelo multimodal basado en arquitectura MoE que integra cinco capacidades: comprensión de texto, comprensión visual, generación de imágenes y audio. Su diseño central DiNA logra el procesamiento unificado de tareas mediante tokens discretos, mientras que el enfoque visual dNaViT optimiza el rendimiento en generación de imágenes. En comparación con modelos similares, LongCat-Next muestra un desempeño superior en todos los puntos de referencia, demostrando sus ventajas en los campos de comprensión y generación multimodal.

Más

06:36

Cursor publica informe técnico de Composer2: El entorno de RL simula completamente escenarios de usuarios reales, mejora de puntuación del modelo base del 70%

Cursor publicó el informe técnico de Composer 2, que presenta el plan de entrenamiento completo de su arquitectura Kimi K2.5 MoE, incluido el entrenamiento en dos fases y el benchmark propio CursorBench. Tras el entrenamiento, el rendimiento de Composer 2 mejoró notablemente y superó a otros modelos de vanguardia en términos de coste de inferencia.

Más

06:27

Cursor publica informe técnico de Composer 2, puntuación del modelo base aumenta 70%

Avance del proyecto

Cursor publicó el 25 de marzo un informe técnico sobre Composer 2, revelando el esquema de entrenamiento del modelo Kimi K2.5, que adopta una arquitectura MoE con parámetros que alcanzan 1.04 billones. El entrenamiento se divide en dos etapas, utilizando simulación de escenarios reales para aprendizaje por refuerzo, logrando finalmente una puntuación de 61.3 en el punto de referencia CursorBench, una mejora del 70%, con costos de inferencia inferiores a los de otras API de modelos grandes.

Más