Gate News-сообщение, 24 апреля — инженер OpenAI Клайв Чан высказал подробные возражения против главы с рекомендациями по оборудованию в техническом отчёте V4, назвав её «удивительно посредственной и склонной к ошибкам» по сравнению с получившей признание версией V3. Аппаратные рекомендации V3, которые включали сессии Q&A, ставшие самой популярной темой для обсуждений на академической конференции ISCA, предоставили конкретные рекомендации, согласованные с отраслевыми стандартами межсоединений. Напротив, V4 гораздо более расплывчата.

Чан систематически оспорил три ключевые рекомендации. По энергопотреблению отчёт предполагает, что оптимизация программного обеспечения позволяет чипам одновременно работать на полной мощности для вычислений, хранения и связи, и рекомендует производителям чипов закладывать дополнительный запас по мощности. Чан утверждает, что это контрпродуктивно: общая мощность чипа ограничена физическими ограничениями технологического процесса, поэтому резервирование большего запаса по мощности лишь снижает рабочую частоту, в конечном итоге уменьшая вычислительную производительность. Что касается передачи данных GPU-to-GPU, отчёт предлагает модель pull — когда GPU активно запрашивают данные — вместо модели push, ссылаясь на высокие издержки на уведомления при операциях push. Чан с этим не согласен: он утверждает, что pull на самом деле медленнее и что предпочтительнее улучшенные возможности сетевых адаптеров. Однако возможно, что они обсуждают разные уровни проблемы: отчёт говорит об издержках механизма уведомлений, тогда как Чан имеет в виду саму задержку передачи.

По функциям активации отчёт рекомендует заменить SwiGLU более простыми функциями, чтобы снизить вычислительную нагрузку. Чан не видит в этом смысла, отмечая, что Sonic MoE уже продемонстрировал оптимальную производительность, используя SwiGLU. Чан предполагает, что DeepSeek, возможно, «намеренно ослабил этот раздел».

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

04-24 04:29

V4-Pro демонстрирует 67% процент успешного прохождения кода во внутреннем тесте догфудинга, приближаясь к производительности Opus 4.5

04-24 03:21

Данные обучения DeepSeek V4 удвоены до 33T — возникла нестабильность, из-за которой релиз был отложен

04-24 03:04

DeepSeek выпускает серию открытых моделей V4 с 1,6T параметров и лицензией MIT

04-24 01:46

OpenAI представляет GPT-5.5, разработанную для задач агентов и сложных рабочих процессов

04-23 20:42

Утечка в системе безопасности Vercel расширилась до сотен пользователей; разработчики ИИ находятся в группе повышенного риска

Детальный анализ

DeepSeek выпускает V4 open-source preview, технический рейтинг 3206 превзошёл GPT-5.4

Market Whisper04-24 05:38

OpenAI 推出 GPT-5.5：12M контекст, AA-индекс на первом месте, Terminal-Bench 82,7% переписывает эталон для агентов

ChainNewsAbmedia04-23 19:45

Anthropic раскрывает, что в Code произошла каскадная комбинация из 3 багов: деградация рассуждений, забывание кэша, обратное действие 25-символьной команды

ChainNewsAbmedia04-23 18:14

комментарий

0/400

Нет комментариев