Человеческий полный проход, максимум AI 0,37%: ARC-AGI-3 использует «неизвестную игру» для тестирования истинного интеллекта агента

По данным мониторинга 1M AI News, основатель Keras Франсуа Шолле и соучредитель Zapier Майк Кноп создали некоммерческую организацию ARC Prize Foundation, которая выпустила бенчмарк ARC-AGI-3. В отличие от предыдущих двух поколений статических задач на логическое рассуждение, ARC-AGI-3 представляет собой набор интерактивных пошаговых сред, в которых агент действует в 64×64, 16-цветном сетевом мире, не получая никаких команд или подсказок целей, и должен самостоятельно исследовать окружение, делать выводы о правилах и условиях победы, строить модель мира и планировать последовательность действий.

Оценка осуществляется по механизму «эффективности действий»: чем меньше шагов требуется для прохождения одного и того же уровня, тем выше балл, что позволяет отличить истинные способности к рассуждению от простого перебора вариантов. Каждая среда прошла калибровочные тесты с участием человека, подтверждающие, что её можно пройти с первого раза 100% человеком. На момент публикации передовые модели ИИ достигли следующих результатов:

  1. Google Gemini 3.1 Pro Preview: 0,37%
  2. OpenAI GPT 5.4 (High): 0,26%
  3. Anthropic Opus 4.6 (Max): 0,25%
  4. xAI Grok-4.20 (Beta): 0,00%

Запуск новой версии частично обусловлен опасениями, что предыдущие бенчмарки были «загрязнены». В статье отмечается, что Gemini 3 автоматически использовал в цепочке рассуждений сопоставление целых чисел и цветов ARC-AGI (например, «3 = зеленый»), хотя в подсказках это никогда явно не указывалось, что сильно намекает на то, что обучающие данные модели уже полностью покрывают задачи ARC-AGI. ARC-AGI-3 использует интерактивную среду и механизмы самостоятельного обнаружения целей, чтобы противостоять таким «механизмам памяти». Общий призовой фонд конкурса ARC Prize 2026 превышает 2 миллиона долларов.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев