News | Gate 新聞

2026-05-27

04:57

MiniMax 發布 M2 技術報告；Forge 系統實現 40 倍訓練加速

根據 Beating，MiniMax 已在 arXiv 發布其 M2 技術報告，詳細說明其旗艦型 MoE（mixture-of-experts，混合專家）架構與 Agent 訓練系統 Forge。該公司披露 Forge 如何透過分段的 FIFO（先進先出）排程以及前綴樹合併技術，優化長上下文的 Agent 強化學習，並達到最高 40 倍的訓練加速。 M2.7 展示了自主代理自我進化能力，完成超過 100 輪的分析、程式碼修訂與測試循環。在效能基準測試上，M2.7 在 SWE-Pro 上達到 56.22%，在 Multi-SWE-bench 上達到 52.7%，並在 MLE Bench 上取得 66.6% 的平均獎勵率，接近 Gemini 3.1 的效能水準。

展開

09:38

華為、USTC 與北京大學在用於 MoE 模型訓練的 Ascend A3 上實現 58% 的加速

AI 行業動態

根據 Beating，華為、清華大學的中國科學技術大學（USTC）以及北京大學的研究人員揭露了 HyperParallel-MoE，一種為 Ascend A3 晶片設計的編譯器排程框架。該框架透過在 MoE 專家計算模組中降低 36% 的延遲，並在 256 節點叢集上運行 671B 參數的類 DeepSeek 模型時，實現整體資料處理速度提升 58%（快 1.49–1.58 倍），同時單步訓練速度也提升了 8–9%。

12:58

雲天易翼飛在推理晶片開發中推出 3D 疊層式記憶體架構

AI 行業動態

根據 5 月 12 日的投資者關係披露，雲天億飛（Yuntianliyifei）在開發中的推論晶片採用 GPNPU 架構作為其核心技術路線圖。主要技術亮點包括具備可相容於主流 CUDA 生態系的 GPGPU 等級通用程式能力、針對推論效率進行最佳化的 NPU 核心，以及設計用於提升頻寬並降低存取延遲的 3D 堆疊式記憶體架構，以突破記憶體瓶頸帶來的「記憶牆」問題。該公司亦採用運算模組化架構，以支援在機架層級進行擴容，建置達萬億與百萬億規模的 MoE 模型推論超級節點。技術路線圖目標是指數級降低代幣成本並加速大型模型應用部署。

展開

11:13

NVIDIA 與 MIT 發布 Lightning OPD 架構，提升模型蒸餾效率 4 倍，同時消除 GPU 記憶體問題

AI 行業動態

據報導，NVIDIA 與 MIT 研究人員發布了 Lightning OPD（Offline On-Policy Distillation），這是一種用於大型語言模型的新型後訓練框架，可消除在訓練期間維持教師模型持續運行的需求。透過離線預先計算教師模型的對數機率，該框架可使訓練效率提升 4 倍，同時釋放所有 GPU 資源用於學生模型訓練。在 8 張 NVIDIA H100 GPU 的測試中，Lightning OPD 成功蒸餾了 Qwen3-30B-A3B-Base（具 300 億參數的 MoE 模型），並在 AIME 2024 基準測試上達到 71.0；相較之下，標準 OPD 在相同硬體上因記憶體不足而失敗。對於較小的 Qwen3-8B 模型，該框架僅需 30 個 GPU 小時計算時間即可達到 69.9 分。

展開

00:45

Thinking Machines 推出互動模型，回應時間 200 毫秒，表現優於 GPT-Realtime-2.0

AI 行業動態

根據 Beating、Thinking Machines（由前 OpenAI 執行長 Mira Murati 創立的實驗室），該實驗室釋出其 Interaction 模型的研究預覽版，特色是原生即時音訊與影像處理，並具備 200 毫秒的微回合回應。該模型可在同一時間進行傾聽、觀看與說話，同時支援即時使用者中斷。 TML-Interaction-Small 模型採用 2760 億（276-billion）參數的 MoE（混合專家）架構，每次推論啟用 120 億（12 billion）參數。官方數據顯示，其語音輪替延遲為 0.40 秒，且 FD-bench V1.5 分數為 77.8，兩者皆優於 GPT-Realtime-2.0 與 Gemini 3.1 Flash Live。預計在未來幾個月開放有限的預覽存取。

展開

16:30

NVIDIA 推出 Nemotron 3 Nano Omni 多模態模型，吞吐量提升 9 倍

AI 行業動態

Gate News 訊息，4 月 28 日——NVIDIA 已發布 Nemotron 3 Nano Omni，這是一款開源多模態模型，具備 30B-A3B 專家混合（(MoE)）架構，並支援 256K 上下文視窗。該模型在單一框架中統一處理視訊、音訊、影像與文字輸入。相比

展開

03:21

DeepSeek 的 V4 訓練數據翻倍至 33T，引發不穩定性並延遲發布

AI 行業動態

Gate 新聞訊息，4 月 24 日——DeepSeek 的 V4 技術報告顯示，V4-Flash 與 V4-Pro 分別在 32T 與 33T tokens 上進行預訓練，比用於 V3 的約 15T tokens 翻了一倍。報告承認在訓練過程中遇到「重大不穩定性挑戰」，損失尖峰反覆發生，原因是 Mixture-of-Experts MoE 層中的異常；而路由機制本身也會加劇這些異常，單純的回滾也無法解決問題，loss spi

展開

03:04

DeepSeek 发布 V4 开源模型系列：1.6T 参数与 MIT 许可

AI 行業動態

Gate News 消息，4 月 24 日——DeepSeek 已在 MIT 授权下发布 V4 系列开源模型，权重现已在 Hugging Face 和 ModelScope 上提供。该系列包含两个 (MoE) 混合专家（Mixture-of-Experts）模型：V4-Pro 总参数 1.6 万亿、每 token 激活 49 亿

展開

06:25

字節跳動 Seed 團隊發布 Seed3D 2.0：增強幾何精度與材質生成能力

AI 工具應用

Gate News 訊息，4 月 23 日 — 字節跳動的 Seed 團隊釋出 Seed3D 2.0：一款文字轉 3D 模型，能從單一影像生成帶紋理的 3D 資產。此次升級聚焦幾何精度與材質真實感，API 現已在 Volcano Ark 上提供。幾何生成採用「由粗到精」的兩階段策略：大型參數 DiT 模型首先建立粗粒度拓樸，隨後恢復銳利邊緣與精細表面。材質生成使用「專家混合」MoE 架構，以提升高解析度細節，並引入「視覺語言模型」VLM 的先驗，改善在未知光照條件下材質分解的穩定性，輸出完整的 PBR 貼圖，與標準渲染流程相容。共有 60 位具備 3D 建模經驗的評估者進行盲測對比，涵蓋約 200 個測試案例，將 Seed3D 2.0 與 Hunyuan3D-2.5/3.1、Tripo 3.0、Rodin Gen2、HiTem v2.0 以及先前的 Seed3D 1.0 進行比較。幾何生成偏好率介於 65.1% 到 98.3% 之間，而帶紋理的 3D 資產偏好率在所有比較中均超過 69%。面向下游應用，Seed3D 2.0 可將 3D 資產分解為具聯合資訊的獨立組件，輸出符合 URDF 格式，並相容 Isaac Sim 與其他模擬引擎，用於機器人抓取等動態互動情境。在場景層級，它支援文字、多視角影像或影片輸入，並結合多個資產以生成完整場景。

展開

13:41

阿里巴巴 Qwen Lab 發布具稀疏 MoE 架構的 Qwen3.6-35B-A3B 模型

AI 行業動態

阿里巴巴的 Qwen Lab 已推出 Qwen3.6-35B-A3B，這是一款開源的大型語言模型，採用稀疏混合專家（mixture-of-experts）架構，具備代理式程式設計能力，方便與第三方程式碼助理整合；模型參數規模為 35 billion。

展開