Китайська AI-лабораторія DeepSeek веде переговори про залучення першого раунду фінансування за повідомленою оцінкою в 45 мільярдів доларів США, повідомляє TechCrunch. Оцінка суттєво зросла порівняно із приблизною оцінкою в 20 мільярдів доларів США лише тижнями раніше — після того, як увагу привернули AI-моделі компанії завдяки нижчим витратам на навчання. Засновник Лян Веньфен контролює майже 90% компанії.
Мотивація до збору коштів і інтерес інвесторів
DeepSeek вирішив шукати фінансування після того, як конкуренти намагалися переманити дослідників, пропонуючи частки в компанії як стимул. Китайський фонд інвестицій в індустрію інтегральних схем (China Integrated Circuit Industry Investment Fund) може очолити раунд, а також повідомляється, що в перемовинах щодо участі беруть Tencent і Alibaba.
Показники моделей і ціноутворення
Згідно з повідомленням компанії, модель V4 DeepSeek, як стверджується, показує результати на рівні топмоделей від OpenAI та Anthropic на тестах-бенчмарках. Конкурентна перевага поширюється і на ціну: V4-Pro коштує 1,74 долара за мільйон вхідних токенів, тоді як V4-Flash — приблизно 0,14 долара за мільйон вхідних токенів, що суттєво нижче за ціноутворення для порівнюваних моделей із США.
Нижча структура витрат пояснюється обчислювально ефективною архітектурою DeepSeek, зокрема дизайном mixture-of-experts (MoE), який активує лише частину моделі для кожного завдання, зменшуючи потреби в обчисленнях під час інференсу. За даними DeepSeek, V4-Pro використовує 27% обчислювальної потужності та 10% пам’яті, потрібних для V3.2.
Стратегія Китаю на самоопору в сфері ШІ
Раунд фінансування DeepSeek відбувається на тлі того, що Китай намагається створити більш самодостатню інфраструктуру для ШІ у відповідь на експортні обмеження США для передових чипів. V4 — це перша модель DeepSeek, налаштована під китайські чипи, зокрема лінійку Ascend від Huawei, хоча технічний звіт компанії вказує, що китайські чипи можуть виконувати інференс, тоді як навчання все ще може залежати насамперед від апаратного забезпечення Nvidia.
DeepSeek також випускає відкриті моделі з вагами — навчені параметри, які інші можуть використовувати, доопрацьовувати й розгортати, розширюючи розвиток ШІ за межі домінування США. Ця стратегія робить акцент на алгоритмічній ефективності замість ексклюзивного доступу до найпередовішого обладнання зі США, однак просування Китаю в сфері ШІ лишається частково залежним від апаратного забезпечення Nvidia.