Novo benchmark interativo exige que agentes descubram regras sem instrução; CNNs simples alcançam 12,58% enquanto humanos mantêm 100%.
O ARC-AGI-3, lançado em 25 de março, representa a transformação mais radical do benchmark desde sua criação por François Chollet em 2019. Em vez de puzzles estáticos em grade, agentes entram em ambientes interativos de 64x64 pixels com 16 cores e precisam descobrir regras, definir objetivos e resolver problemas sem instrução alguma.
Os resultados iniciais expõem uma lacuna brutal: LLMs de fronteira como GPT-5 e Claude ficaram abaixo de 1%, enquanto abordagens simples com CNNs e busca em grafos chegaram a 12,58%. Humanos mantêm 100%. O benchmark mede inteligência ao longo do tempo — horizontes de planejamento, compressão de memória e capacidade de atualizar crenças diante de novas evidências.
24 mar, 09:00
19 mar, 09:00
14 mar, 09:00
13 mar, 09:00
1 mar, 13:19