Resultados de la búsqueda para "MOE"
Hoy
09:38

Huawei, USTC y la Universidad de Pekín logran una mejora de velocidad del 58% en Ascend A3 para el entrenamiento de modelos MoE

Beating informa que investigadores de Huawei, la Universidad de Ciencia y Tecnología de China (USTC) y la Universidad de Pekín presentaron HyperParallel-MoE, un marco de programación del compilador diseñado para los chips Ascend A3. El marco reduce la latencia en los módulos de computación de expertos MoE en un 36%, logrando una aceleración global del procesamiento de datos del 58% (1,49–1,58x más rápido) en clústeres de 256 nodos que ejecutan modelos tipo DeepSeek de 671B parámetros, mientras q
Más
00:45

Thinking Machines lanza un modelo de interacción con una respuesta de 200 ms, superando a GPT-Realtime-2.0

Según Beating, Thinking Machines, el laboratorio fundado por la ex CTO de OpenAI Mira Murati, lanzó una vista previa de investigación de su modelo de Interacción, con procesamiento nativo de audio y video en tiempo real y respuestas de micro-turn de 200 milisegundos. El modelo permite escuchar, ver y hablar de forma simultánea, mientras admite interrupciones en tiempo real por parte del usuario. El modelo TML-Interaction-Small utiliza una arquitectura MoE de 276 mil millones de parámetros, con 1
Más
03:21

Los datos de entrenamiento de DeepSeek V4 se duplicaron hasta 33T, lo que provocó una inestabilidad que retrasó el lanzamiento

Mensaje de Gate News, 24 de abril — El informe técnico de V4 de DeepSeek revela que V4-Flash y V4-Pro fueron preentrenados con 32T y 33T tokens, respectivamente, duplicando los aproximadamente 15T tokens usados para V3. El informe reconoce haber encontrado "retos importantes de inestabilidad" durante el entrenamiento, con picos de pérdida que ocurren repetidamente debido a anomalías en la capa Mixture-of-Experts MoE; el mecanismo de enrutamiento en sí mismo agrava estas anomalías, y un simple rollback no puede resolver el problema.
Más
08:52

Tencent lanza y abre código de la vista previa de Hunyuan Hy3 con 295B de parámetros

Mensaje de Gate News, 23 de abril — Tencent presentó y lanzó como código abierto una vista previa de Hunyuan Hy3, un modelo de lenguaje híbrido de mezcla de expertos (MoE) que incorpora la fusión entre pensamiento rápido y lento. El modelo consta de 295 mil millones de parámetros totales con 21 mil millones de parámetros activos, y admite una longitud máxima de contexto de 256K
Más
01:51

Meituan lanza LongCat-Next de código abierto: comprensión visual, generación y reconocimiento de voz unificados con 3B de parámetros

LongCat-Next, lanzado por el equipo Meituan Longcat, es un modelo multimodal basado en arquitectura MoE que integra cinco capacidades: comprensión de texto, comprensión visual, generación de imágenes y audio. Su diseño central DiNA logra el procesamiento unificado de tareas mediante tokens discretos, mientras que el enfoque visual dNaViT optimiza el rendimiento en generación de imágenes. En comparación con modelos similares, LongCat-Next muestra un desempeño superior en todos los puntos de referencia, demostrando sus ventajas en los campos de comprensión y generación multimodal.
Más
06:36

Cursor publica informe técnico de Composer2: El entorno de RL simula completamente escenarios de usuarios reales, mejora de puntuación del modelo base del 70%

Cursor publicó el informe técnico de Composer 2, que presenta el plan de entrenamiento completo de su arquitectura Kimi K2.5 MoE, incluido el entrenamiento en dos fases y el benchmark propio CursorBench. Tras el entrenamiento, el rendimiento de Composer 2 mejoró notablemente y superó a otros modelos de vanguardia en términos de coste de inferencia.
Más
06:27

Cursor publica informe técnico de Composer 2, puntuación del modelo base aumenta 70%

Cursor publicó el 25 de marzo un informe técnico sobre Composer 2, revelando el esquema de entrenamiento del modelo Kimi K2.5, que adopta una arquitectura MoE con parámetros que alcanzan 1.04 billones. El entrenamiento se divide en dos etapas, utilizando simulación de escenarios reales para aprendizaje por refuerzo, logrando finalmente una puntuación de 61.3 en el punto de referencia CursorBench, una mejora del 70%, con costos de inferencia inferiores a los de otras API de modelos grandes.
Más