Claude Opus 4.6 reimplementou ferramenta de 16 mil linhas de código, tarefa estimada em até 17 semanas para um humano, gastando US$550.
A METR e a Epoch AI publicaram resultados preliminares do MirrorCode, benchmark que testa a capacidade de agentes de IA em reimplementar programas reais sem acesso ao código-fonte. O Claude Opus 4.6 conseguiu reimplementar do zero o gotree, ferramenta de bioinformática com aproximadamente 16 mil linhas de código Go e mais de 40 comandos.
O agente tomou decisões arquiteturais de forma autônoma, gastou cerca de US$550 em computação e passou em 99,95% dos testes. Os pesquisadores estimam que a mesma tarefa levaria de 2 a 17 semanas para um engenheiro humano. O benchmark inclui mais de 20 programas que abrangem utilitários Unix, serialização de dados, interpretadores, análise estática e compressão — e os ganhos continuam crescendo conforme se aumenta o orçamento de tokens.
4 abr, 09:00
26 mar, 15:03
22 mar, 09:00
21 mar, 09:00
1 mar, 13:19