Message de Gate News, 24 avril — Zhang Chi, ancien ingénieur de l’équipe Seed de ByteDance et actuellement professeur assistant à l’Université de Pékin, a révélé dans le podcast "Into Asia" que ByteDance nécessite environ six mois pour achever un cycle complet d’entraînement de pré-entraînement d’un grand modèle de langage (, plus post-training), tandis que Google n’aurait besoin que de trois mois. Zhang a attribué la différence de vitesse comme raison centrale expliquant pourquoi les entreprises chinoises peinent à rattraper leur retard dans le développement de l’IA.
Zhang a décrit une « culture du benchmarking » au sein de Seed, où les responsables d’équipe sont évalués sur la base des scores de benchmarking qu’ils supervisent, et où tous les membres s’efforcent d’augmenter les chiffres. Toutefois, il a noté que cela ne se traduit pas, dans la pratique, par une meilleure expérience utilisateur. Alors que, sur le papier, les modèles des grandes entreprises chinoises semblent être concurrentiels par rapport aux modèles frontier américains, ils sont en deçà dans un usage réel. L’objectif de Seed est d’atteindre des performances de tout premier niveau à l’échelle mondiale, mais Zhang a déclaré qu’il ne pensait pas que l’équipe y soit parvenue, et qu’elle n’avait pas non plus atteint l’objectif de leadership national.
À la fin de 2024, Seed se considérait au même niveau que GPT-4o, mais après la sortie de DeepSeek, l’équipe a reconnu que l’écart demeurait. Lorsque Zhang a rejoint l’équipe, tout le groupe se réorientait de toute urgence vers l’apprentissage par renforcement pour combler ce manque.