Mensagem do Gate News, 23 de abril — A DeepSeek disponibilizou o código-fonte aberto do TileKernels sob a licença MIT, uma biblioteca de kernels de GPU escrita em TileLang para treinamento e inferência de modelos de linguagem em larga escala. O TileLang é uma linguagem de domínio desenvolvida pela equipe tile-ai para expressar kernels de GPU de alto desempenho em Python. A DeepSeek afirmou que a maioria dos kernels da biblioteca já se aproximou dos limites de desempenho do hardware em densidade de computação e largura de banda de memória, com partes já implantadas em operações internas de treinamento e inferência.
A biblioteca compreende seis categorias de kernels: MoE (mistura de especialistas) com gating e roteamento, incluindo seleção de especialistas Top-k, mapeamento de token para especialista e expandir/reduzir fundidos com normalização de pesos; quantização que suporta formatos FP8, FP4 e E5M6 com quantização por token, por bloco e por canal, incluindo operações fundidas de SwiGLU+quantização; transposição em lote; gating Engram com propagação direta/reversa de RMSNorm fundida e redução de gradiente de pesos; Manifold HyperConnection com normalização Sinkhorn e split/aplicar mistos; e interfaces de autograd de alto nível que encapsulam kernels de baixo nível em camadas treináveis.
Engram e Manifold HyperConnection são componentes proprietários da arquitetura do modelo da DeepSeek, com detalhes de implementação divulgados publicamente pela primeira vez. A biblioteca exige GPUs das arquiteturas NVIDIA SM90 ou SM100 (H100/H200 ou série Blackwell), CUDA Toolkit 13.1 ou superior, e PyTorch 2.10 ou superior.