Повідомлення Gate News, 24 квітня — Чжан Чі, колишній інженер команди Seed у ByteDance та нинішній доцент Пекінського університету, розповів у подкасті "Into Asia", що ByteDance потрібно приблизно шість місяців, щоб завершити один повний цикл тренування великих мовних моделей (pretraining плюс післятренуванн), тоді як, як повідомляється, Google вистачає лише трьох місяців. Чжан пов’язав різницю в швидкості з ключовою причиною, чому китайські компанії не можуть наздогнати в розробці ШІ.
Чжан описав у Seed "культуру бенчмаркінгу", де керівників команд оцінюють за бенчмарковими показниками, які вони контролюють, і всі учасники зосереджуються на тому, щоб збільшувати ці цифри. Однак він зазначив, що на практиці це не перетворюється на кращий користувацький досвід. Хоча моделі великих китайських компаній на папері виглядають конкурентними з провідними моделями США, у реальному використанні вони не дотягують. Мета Seed — досягти глобального рівня топових показників, але Чжан заявив, що він не вірить, ніби команді це вдалося, і вона також не досягла цільового показника лідерства всередині країни.
Наприкінці 2024 року Seed вважала себе на рівні GPT-4o, але після виходу DeepSeek команда усвідомила, що розрив залишився. Коли Чжан приєднався, вся група терміново переорієнтовувалася на навчання з підкріпленням, щоб усунути нестачу.