Conquista total da humanidade, AI com máximo de 0,37%: ARC-AGI-3 testa a verdadeira inteligência do Agente com "jogo desconhecido"

De acordo com a monitorização do 1M AI News, a fundação sem fins lucrativos ARC Prize, fundada por François Chollet, criador do Keras, e Mike Knoop, cofundador da Zapier, lançou o benchmark ARC-AGI-3. Ao contrário das tarefas de raciocínio em grade estática das duas gerações anteriores, o ARC-AGI-3 é um conjunto de ambientes interativos por turnos, onde o Agente atua num mundo de grade de 64×64 com 16 cores, sem receber instruções ou pistas de objetivo, devendo explorar o ambiente de forma autónoma, inferir regras e condições de vitória, construir modelos do mundo e planear sequências de ações.

A pontuação usa o mecanismo de "eficiência de ações", onde menos passos para completar o mesmo nível resultam numa pontuação mais alta, distinguindo verdadeira capacidade de raciocínio de uma busca exaustiva. Cada ambiente foi calibrado por humanos, confirmando que pode ser completado por humanos na primeira tentativa. As pontuações dos modelos de IA mais avançados até ao momento do lançamento são:

  1. Google Gemini 3.1 Pro Preview: 0,37%
  2. OpenAI GPT 5.4 (High): 0,26%
  3. Anthropic Opus 4.6 (Max): 0,25%
  4. xAI Grok-4.20 (Beta): 0,00%

A introdução de uma nova versão deve-se parcialmente a preocupações de que o benchmark anterior foi "contaminado". O artigo aponta que o Gemini 3 utilizou automaticamente, na cadeia de raciocínio, a relação de mapeamento de cores inteiras do ARC-AGI (por exemplo, "3 = verde"), embora essa relação nunca tenha sido mencionada na prompt, sugerindo fortemente que os dados de treino do modelo cobriam suficientemente as tarefas do ARC-AGI. O ARC-AGI-3 tenta resistir a essas atalhos de memória através de ambientes interativos e mecanismos de descoberta de objetivos autónomos. A competição ARC Prize 2026 oferece um prémio total superior a 2 milhões de dólares.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário