Партнер YC: Вместо того чтобы соревноваться в размере модели, пусть ИИ пишет код и самосовершенствуется, как ученый

robot
Генерация тезисов в процессе
По данным мониторинга Beating, партнер Y Combinator Диана Ху в Твиттере отметила, что по сравнению с простым увеличением параметров, будущее в создании тонкого программного слоя поверх базовой модели, позволяющего ИИ самостоятельно писать правила для решения задач (исполняемая модель мира). ИИ может постоянно тестировать, изменять и упрощать код на основе результатов работы, не требуя дорогостоящей донастройки самой большой модели.

Путь обучения кода без градиента подтверждает гипотезу о гиперучебной парадигме (Heuristic Learning), предложенную ключевым участником после обучения в OpenAI Вэнг Цзяйи в прошлом месяце. Традиционное обучение с подкреплением, чтобы научить ИИ выполнять задачу, требует тысяч и тысяч итераций отладки, принуждая опыт втискивать в черный ящик нейронной сети, что очень энергозатратно и легко забывается. В экспериментах Вэнг Цзяйи, без изменения каких-либо параметров большой модели, чисто за счет того, что модель сама пишет Python-код, ищет баги и регулирует правила, она прошла игру Atari Breakout. Это показывает, что носитель знаний вполне может быть системой кода, читаемой и тестируемой человеком, а не непонятными весами нейронной сети.

По мнению соучредителя YC Пола Грэма, цикл написания кода, его проверки и сжатия очень близок к повседневной деятельности ученых. Большая модель не нуждается в перестройке мозга, а действует как ученый, создавая гипотезы в виде кода для новых условий, проводя эксперименты и выводя самые простые правила для решения задач. Процесс поиска минимальной программы — это также конечная мера эффективности искусственного интеллекта в рамках ARC-AGI.

Самая важная выгода в том, что обучение без градиента позволяет напрямую воспользоваться преимуществами повышения возможностей базовой модели. Чем умнее становится базовая модель, тем сильнее и стратегии, и код, создаваемый агентом. На основе горького урока Ричарда Саутона (The Bitter Lesson) обучение кода без градиента рисует совершенно новую S-образную кривую. С взрывным ростом возможностей кода больших моделей путь самосовершенствования ИИ открывает занавес следующего поколения парадигмы искусственного интеллекта.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено