"MOE"的搜尋結果
2026-05-27
04:57

MiniMax 發布 M2 技術報告;Forge 系統實現 40 倍訓練加速

根據 Beating,MiniMax 已在 arXiv 發布其 M2 技術報告,詳細說明其旗艦型 MoE(mixture-of-experts,混合專家)架構與 Agent 訓練系統 Forge。該公司披露 Forge 如何透過分段的 FIFO(先進先出)排程以及前綴樹合併技術,優化長上下文的 Agent 強化學習,並達到最高 40 倍的訓練加速。 M2.7 展示了自主代理自我進化能力,完成超過 100 輪的分析、程式碼修訂與測試循環。在效能基準測試上,M2.7 在 SWE-Pro 上達到 56.22%,在 Multi-SWE-bench 上達到 52.7%,並在 MLE Bench 上取得 66.6% 的平均獎勵率,接近 Gemini 3.1 的效能水準。
展開
09:38

華為、USTC 與北京大學在用於 MoE 模型訓練的 Ascend A3 上實現 58% 的加速

根據 Beating,華為、清華大學的中國科學技術大學(USTC)以及北京大學的研究人員揭露了 HyperParallel-MoE,一種為 Ascend A3 晶片設計的編譯器排程框架。該框架透過在 MoE 專家計算模組中降低 36% 的延遲,並在 256 節點叢集上運行 671B 參數的類 DeepSeek 模型時,實現整體資料處理速度提升 58%(快 1.49–1.58 倍),同時單步訓練速度也提升了 8–9%。
12:58

雲天易翼飛在推理晶片開發中推出 3D 疊層式記憶體架構

根據 5 月 12 日的投資者關係披露,雲天億飛(Yuntianliyifei)在開發中的推論晶片採用 GPNPU 架構作為其核心技術路線圖。主要技術亮點包括具備可相容於主流 CUDA 生態系的 GPGPU 等級通用程式能力、針對推論效率進行最佳化的 NPU 核心,以及設計用於提升頻寬並降低存取延遲的 3D 堆疊式記憶體架構,以突破記憶體瓶頸帶來的「記憶牆」問題。 該公司亦採用運算模組化架構,以支援在機架層級進行擴容,建置達萬億與百萬億規模的 MoE 模型推論超級節點。技術路線圖目標是指數級降低代幣成本並加速大型模型應用部署。
展開
11:13

NVIDIA 與 MIT 發布 Lightning OPD 架構,提升模型蒸餾效率 4 倍,同時消除 GPU 記憶體問題

據報導,NVIDIA 與 MIT 研究人員發布了 Lightning OPD(Offline On-Policy Distillation),這是一種用於大型語言模型的新型後訓練框架,可消除在訓練期間維持教師模型持續運行的需求。透過離線預先計算教師模型的對數機率,該框架可使訓練效率提升 4 倍,同時釋放所有 GPU 資源用於學生模型訓練。 在 8 張 NVIDIA H100 GPU 的測試中,Lightning OPD 成功蒸餾了 Qwen3-30B-A3B-Base(具 300 億參數的 MoE 模型),並在 AIME 2024 基準測試上達到 71.0;相較之下,標準 OPD 在相同硬體上因記憶體不足而失敗。對於較小的 Qwen3-8B 模型,該框架僅需 30 個 GPU 小時計算時間即可達到 69.9 分。
展開
00:45

Thinking Machines 推出互動模型,回應時間 200 毫秒,表現優於 GPT-Realtime-2.0

根據 Beating、Thinking Machines(由前 OpenAI 執行長 Mira Murati 創立的實驗室),該實驗室釋出其 Interaction 模型的研究預覽版,特色是原生即時音訊與影像處理,並具備 200 毫秒的微回合回應。該模型可在同一時間進行傾聽、觀看與說話,同時支援即時使用者中斷。 TML-Interaction-Small 模型採用 2760 億(276-billion)參數的 MoE(混合專家)架構,每次推論啟用 120 億(12 billion)參數。官方數據顯示,其語音輪替延遲為 0.40 秒,且 FD-bench V1.5 分數為 77.8,兩者皆優於 GPT-Realtime-2.0 與 Gemini 3.1 Flash Live。預計在未來幾個月開放有限的預覽存取。
展開
03:21

DeepSeek 的 V4 訓練數據翻倍至 33T,引發不穩定性並延遲發布

Gate 新聞訊息,4 月 24 日——DeepSeek 的 V4 技術報告顯示,V4-Flash 與 V4-Pro 分別在 32T 與 33T tokens 上進行預訓練,比用於 V3 的約 15T tokens 翻了一倍。報告承認在訓練過程中遇到「重大不穩定性挑戰」,損失尖峰反覆發生,原因是 Mixture-of-Experts MoE 層中的異常;而路由機制本身也會加劇這些異常,單純的回滾也無法解決問題,loss spi
展開
06:25

字節跳動 Seed 團隊發布 Seed3D 2.0:增強幾何精度與材質生成能力

Gate News 訊息,4 月 23 日 — 字節跳動的 Seed 團隊釋出 Seed3D 2.0:一款文字轉 3D 模型,能從單一影像生成帶紋理的 3D 資產。此次升級聚焦幾何精度與材質真實感,API 現已在 Volcano Ark 上提供。 幾何生成採用「由粗到精」的兩階段策略:大型參數 DiT 模型首先建立粗粒度拓樸,隨後恢復銳利邊緣與精細表面。材質生成使用「專家混合」MoE 架構,以提升高解析度細節,並引入「視覺語言模型」VLM 的先驗,改善在未知光照條件下材質分解的穩定性,輸出完整的 PBR 貼圖,與標準渲染流程相容。 共有 60 位具備 3D 建模經驗的評估者進行盲測對比,涵蓋約 200 個測試案例,將 Seed3D 2.0 與 Hunyuan3D-2.5/3.1、Tripo 3.0、Rodin Gen2、HiTem v2.0 以及先前的 Seed3D 1.0 進行比較。幾何生成偏好率介於 65.1% 到 98.3% 之間,而帶紋理的 3D 資產偏好率在所有比較中均超過 69%。 面向下游應用,Seed3D 2.0 可將 3D 資產分解為具聯合資訊的獨立組件,輸出符合 URDF 格式,並相容 Isaac Sim 與其他模擬引擎,用於機器人抓取等動態互動情境。在場景層級,它支援文字、多視角影像或影片輸入,並結合多個資產以生成完整場景。
展開