Сообщение Gate News, 23 апреля — DeepSeek опубликовал TileKernels с открытым исходным кодом под лицензией MIT. Это библиотека GPU-ядeр, написанная на TileLang для обучения и вывода больших языковых моделей. TileLang — предметно-ориентированный язык, разработанный командой tile-ai для выражения высокопроизводительных GPU-ядeр на Python. DeepSeek заявил, что большинство ядер в библиотеке уже приблизились к предельным значениям производительности по плотности вычислений и пропускной способности памяти; при этом отдельные части уже развернуты во внутренних операциях обучения и вывода.
Библиотека включает шесть категорий ядер: MoE (mixture of experts) — механизмы gating и маршрутизации, включая выбор экспертов Top-k, сопоставление токенов с экспертами, а также объединенные expand/shrink с нормализацией весов; квантование, поддерживающее форматы FP8, FP4 и E5M6, с квантованием по токену, по блокy и по каналу, включая объединенные операции SwiGLU+квантование; пакетную транспозицию; Engram gating с объединенным прямым/обратным распространением RMSNorm и редукцией градиента весов; Manifold HyperConnection с нормализацией Sinkhorn и смешанным split/apply; а также высокоуровневые интерфейсы autograd, которые оборачивают низкоуровневые ядра в обучаемые слои.
Engram и Manifold HyperConnection являются проприетарными компонентами архитектуры модели DeepSeek; детали реализации впервые раскрыты публично. Библиотека требует графические процессоры архитектуры NVIDIA SM90 или SM100 (H100/H200 или серии Blackwell), CUDA Toolkit 13.1 или выше, а также PyTorch 2.10 или выше.