Повний людський прохід, максимум AI 0,37%: ARC-AGI-3 тестує справжній інтелект агента за допомогою «невідомої гри»

Згідно з моніторингом 1M AI News, засновник Keras Франсуа Шолле та співзасновник Zapier Майк Кноп заснували некомерційну організацію ARC Prize Foundation, яка опублікувала базовий тест ARC-AGI-3. На відміну від попередніх двох поколінь статичних задач логічного висновку, ARC-AGI-3 — це набір інтерактивних поетапних середовищ, у яких агент діє у 64×64 піксельному світі з 16 кольорами, не отримуючи жодних інструкцій або цілей, і повинен самостійно досліджувати середовище, робити висновки про правила та умови перемоги, будувати модель світу та планувати послідовність дій.

Оцінювання базується на механізмі «ефективності дій»: чим менше кроків потрібно для проходження рівня, тим вищий бал, що дозволяє відрізнити справжні логічні здібності від простого перебору. Кожне середовище пройдено людськими тестами, підтверджено, що його може пройти людина з першого разу. Ось результати передових моделей штучного інтелекту станом на час публікації:

  1. Google Gemini 3.1 Pro Preview: 0.37%
  2. OpenAI GPT 5.4 (High): 0.26%
  3. Anthropic Opus 4.6 (Max): 0.25%
  4. xAI Grok-4.20 (Beta): 0.00%

Новий випуск частково зумовлений побоюваннями щодо «забруднення» попередніх базових тестів. У статті зазначено, що Gemini 3 автоматично використовував у логічних ланцюжках співвідношення кольорів ARC-AGI (наприклад, «3 = зелений»), хоча у підказках це ніколи не згадувалося, що яскраво натякає на те, що тренувальні дані моделі вже достатньо охоплюють завдання ARC-AGI. ARC-AGI-3 протистоїть таким «запам’ятовуванням» через інтерактивне середовище та механізми самостійного визначення цілей. Загальний призовий фонд конкурсу ARC Prize 2026 перевищує 2 мільйони доларів.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів