ARC-AGI-3 abandona puzzles e LLMs de fronteira...

Pontos principais

ARC-AGI-3 lançado em 25 de março com ambientes interativos em vez de puzzles estáticos

GPT-5, Claude e Gemini marcaram menos de 1% no novo benchmark

CNNs simples e busca em grafos alcançaram 12,58%; humanos mantêm 100%

Mais de $2 milhões em prêmios, com $700 mil para quem atingir 100%

Benchmark contém mais de 1.000 níveis em 150+ ambientes feitos à mão

O ARC-AGI-3, lançado em 25 de março, representa a transformação mais radical do benchmark desde sua criação por François Chollet em 2019. Em vez de puzzles estáticos em grade, agentes entram em ambientes interativos de 64x64 pixels com 16 cores e precisam descobrir regras, definir objetivos e resolver problemas sem instrução alguma.

Os resultados iniciais expõem uma lacuna brutal: LLMs de fronteira como GPT-5 e Claude ficaram abaixo de 1%, enquanto abordagens simples com CNNs e busca em grafos chegaram a 12,58%. Humanos mantêm 100%. O benchmark mede inteligência ao longo do tempo — horizontes de planejamento, compressão de memória e capacidade de atualizar crenças diante de novas evidências.

ARC-AGI-3 abandona puzzles e LLMs de fronteira não passam de 1%

Pontos principais

Fontes

GPT-5, Claude e Gemini ficam abaixo de 1% no ARC-AGI-3

ARC-AGI-3: o primeiro benchmark de raciocínio interativo

Leia também

Anthropic lança Claude Opus 4.7 com 87,6% no SWE-bench Verified

Vazamento expõe Claude Mythos da Anthropic com capacidades inéditas em cibersegurança

AI Scientist da Sakana AI é publicado na Nature, primeiro sistema autônomo revisado por pares

Cisco lança LLM Security Leaderboard e Anthropic domina 8 das 10 primeiras posições

Humanity's Last Exam publicado na Nature: melhores modelos acertam só 40-50%

Comentários

ARC-AGI-3 abandona puzzles e LLMs de fronteira não passam de 1%

Pontos principais

Fontes

GPT-5, Claude e Gemini ficam abaixo de 1% no ARC-AGI-3

ARC-AGI-3: o primeiro benchmark de raciocínio interativo

Leia também

Anthropic lança Claude Opus 4.7 com 87,6% no SWE-bench Verified

Vazamento expõe Claude Mythos da Anthropic com capacidades inéditas em cibersegurança

AI Scientist da Sakana AI é publicado na Nature, primeiro sistema autônomo revisado por pares

Cisco lança LLM Security Leaderboard e Anthropic domina 8 das 10 primeiras posições

Humanity's Last Exam publicado na Nature: melhores modelos acertam só 40-50%

Comentários