"MOE"的搜索结果
2026-05-25
09:38

华为、USTC 和北京大学在 MoE 模型训练的 Ascend A3 上实现 58% 加速

据 Beating 称,华为、清华大学科学技术大学(USTC)和北京大学的研究人员发布了 HyperParallel-MoE,这是一种面向 Ascend A3 芯片的编译器调度框架。该框架通过 36% 降低 MoE 专家计算模块的延迟,并在 256 节点集群中运行 671B 参数的 DeepSeek 风格模型时,实现整体数据处理速度提升 58%(快 1.49–1.58 倍);同时,单步训练速度提升 8–9%。
12:58

云天忆飞在推理芯片开发中引入 3D 堆叠式存储架构

根据 5 月 12 日投资者关系披露,Yuntianliyifei 开发中的推理芯片采用以 GPNPU 架构为核心的技术路线图。主要技术亮点包括具备 GPGPU 级通用编程能力,兼容主流 CUDA 生态;为提升推理效率而优化的 NPU 核心;以及面向增加带宽、降低访问延迟而设计的 3D 堆叠式存储器架构,打破“内存墙”瓶颈。 该公司还采用计算模块化架构,支持在机架级进行扩展,以构建面向万亿及百亿亿(hundred-trillion)规模 MoE 模型推理的超节点。技术路线图旨在指数级降低代币成本,并加速大模型应用部署。
展开
11:13

英伟达和麻省理工学院发布 Lightning OPD 框架,使模型蒸馏效率提升 4 倍,同时消除 GPU 内存问题

据报道,NVIDIA 和 MIT 的研究人员发布了 Lightning OPD(Offline On-Policy Distillation),这是一种用于大语言模型的新后训练框架,可消除在训练期间保持教师模型运行的需求。通过在离线环境中预先计算教师模型的对数概率,该框架将训练效率提升 4 倍,同时释放所有 GPU 资源用于学生模型训练。 在 8 张 NVIDIA H100 GPU 上的测试中,Lightning OPD 成功蒸馏出 Qwen3-30B-A3B-Base(一个 300 亿参数的 MoE 模型),并在 AIME 2024 基准测试中取得 71.0 分;而标准 OPD 在相同硬件上则会内存耗尽。对于较小的 Qwen3-8B 模型,该框架仅需 30 GPU 小时即可达到 69.9 分。
展开
00:45

Thinking Machines 推出交互模型,响应时间为 200 毫秒,表现优于 GPT-Realtime-2.0

据 Beating、Thinking Machines(由前 OpenAI CTO Mira Murati 创立的实验室)称,该实验室发布了其 Interaction 模型的研究预览版。该模型具备原生的实时音频和视频处理能力,并实现 200 毫秒的微轮次响应。该模型使用户能够在同时聆听、观看和发言的同时,支持实时的用户中断。 TML-Interaction-Small 模型采用 2760 亿参数的 MoE 架构,每次推理激活 120亿参数。官方数据显示,该模型的语音轮次切换延迟为 0.40 秒,FD-bench V1.5 分数为 77.8,均超过 GPT-Realtime-2.0 和 Gemini 3.1 Flash Live。有限预览访问计划在未来数月推出。
展开
04:05

蚂蚁集团 Ling-2.6-flash 模型开源:1040B 参数、7.4B 有效参数,达成多项 SOTA 基准

Gate 新闻简报,4月29日——蚂蚁集团的 Ling-2.6-flash 模型权重现已开源;此前这些权重仅通过 API 提供。该模型总参数量为 1040 亿,单次推理激活为 74 亿,拥有 256K 上下文窗口,并采用 MIT 许可。提供 BF16、FP8 和 INT4 精度版本,现已在 HuggingFace 与 ModelScope 上提供。 Ling-2.6-flash 相较 Ling 2.0 引入了混合线性注意力改进:将原始的 GQA 升级为 1:7 MLA,并结合 Lightning Linear 的混合架构,同时配合高度稀疏的 MoE。推理效率显著超过同类模型:在 4x H20 GPU 上,峰值生成速度达到 340 tokens/s;在可比的开源模型上,prefill 与 decode 的吞吐量约高出 4 倍。与智能体相关的基准测试显示出强劲表现:BFCL-V4、TAU2-bench、SWE-bench Verified 61.2%、Claw-Eval 以及 PinchBench 达到或接近 SOTA 水平。在完整的 Artificial Analysis 基准测试套件中,总 token 消耗仅为 1500 万。在 AIME 2026 上,该模型得分为 73.85%。 蚂蚁集团的官方网站同样列出了 Ling-2.6-1T 万亿参数旗舰版本 以及 Ling-2.6-mini 轻量版本 ;不过截至发布,权重仍未在 HuggingFace 上发布,当前仅提供 flash 系列下载。
展开
16:30

NVIDIA 发布 Nemotron 3 Nano Omni 多模态模型,吞吐量提升 9 倍

Gate News 消息,4 月 28 日——NVIDIA 已发布 Nemotron 3 Nano Omni,这是一款开源的多模态模型,采用 30B-A3B 专家混合(mixture-of-experts)(MoE) 架构,并支持 256K 上下文窗口。该模型在单一框架中统一处理视频、音频、图像和文本输入。 与可比的开源多模态模型相比,Nemotron 3 Nano Omni 实现了 9 倍的吞吐量提升,显著降低推理成本并增强可扩展性。该模型现已在 Hugging Face、OpenRouter 和 NVIDIA NIM 上提供,并已被包括 Aible、Applied Scientific Intelligence 和 H Company 在内的企业采用。
展开
03:21

DeepSeek V4 训练数据翻倍至 33T,导致不稳定性并延迟了发布

Gate News 消息,4月24日——DeepSeek 的 V4 技术报告显示,V4-Flash 和 V4-Pro 分别在 32T 和 33T token 上进行了预训练,相较于 V3 使用的约 15T token 翻了一倍。该报告承认在训练过程中遇到了“显著的不稳定性挑战”,损失尖峰反复出现,是由于 Mixture-of-Experts MoE 层中的异常;路由机制本身会加剧这些异常,而简单的回滚也无法解决问题。
展开