Gate News 訊息,4 月 23 日 — DeepSeek 已在 MIT 許可證下開源 TileKernels,這是一個以 TileLang 編寫的 GPU kernel 庫,用於大型語言模型的訓練與推理。TileLang 是 tile-ai 團隊所開發的領域特定語言,用於在 Python 中表達高效能的 GPU kernel。DeepSeek 表示,該程式庫中的多數 kernel 已接近在運算密度與記憶體頻寬方面的硬體效能上限,其中部分已部署於內部的訓練與推理作業。
該程式庫包含六類 kernel:MoE (專家混合) 的 gating 與路由,包括 Top-k 專家選擇、token-to-expert 對映,以及帶權重正規化的融合 expand/shrink;支援量化的格式包含 FP8、FP4 與 E5M6,並提供逐 token、逐區塊與逐通道的量化,包含融合的 SwiGLU+量化運算;batch transpose;Engram gating,並融合 RMSNorm 前向/反向傳播與權重梯度歸約;Manifold HyperConnection,採用 Sinkhorn 正規化與混合的 split/apply;以及高階 autograd 介面,將低階 kernel 封裝為可訓練層。
Engram 與 Manifold HyperConnection 是 DeepSeek 模型架構的專有元件,實作細節首次向公眾公開。該程式庫需要 NVIDIA SM90 或 SM100 架構的 GPU (H100/H200 或 Blackwell 系列)、CUDA Toolkit 13.1 或更高版本,以及 PyTorch 2.10 或更高版本。