Повідомлення Gate News, 24 квітня — Чжан Чі, колишній інженер команди Seed у ByteDance та нинішній доцент Пекінського університету, розповів у подкасті "Into Asia", що ByteDance потрібно приблизно шість місяців, щоб завершити один повний цикл тренування великих мовних моделей (pretraining плюс післятренуванн), тоді як, як повідомляється, Google вистачає лише трьох місяців. Чжан пов’язав різницю в швидкості з ключовою причиною, чому китайські компанії не можуть наздогнати в розробці ШІ.

Чжан описав у Seed "культуру бенчмаркінгу", де керівників команд оцінюють за бенчмарковими показниками, які вони контролюють, і всі учасники зосереджуються на тому, щоб збільшувати ці цифри. Однак він зазначив, що на практиці це не перетворюється на кращий користувацький досвід. Хоча моделі великих китайських компаній на папері виглядають конкурентними з провідними моделями США, у реальному використанні вони не дотягують. Мета Seed — досягти глобального рівня топових показників, але Чжан заявив, що він не вірить, ніби команді це вдалося, і вона також не досягла цільового показника лідерства всередині країни.

Наприкінці 2024 року Seed вважала себе на рівні GPT-4o, але після виходу DeepSeek команда усвідомила, що розрив залишився. Коли Чжан приєднався, вся група терміново переорієнтовувалася на навчання з підкріпленням, щоб усунути нестачу.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

04-24 04:57

Xiaomi Reveals MiMo-V2-Pro Training Details: 1T Model Parameters, Thousands of GPUs Deployed

04-23 09:45

DeepSeek відкриває TileKernels з відкритим кодом: бібліотека GPU-ядр для тренування й інференсу великих моделей

04-23 08:52

Tencent випускає та відкрито розміщує у відкритому доступі прев’ю Hunyuan Hy3 з 295B параметрів

04-23 04:54

Perplexity розкриває метод пост-тренування агента веб-пошуку; модель на базі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю

04-22 14:05

Юйфань Чжан розкриває повні технічні специфікації DeepSeek V4: 1,6T параметрів, 384 експерти з 6 активаціями

Поглиблений аналіз