MirrorCode mostra que agentes de IA completam tarefas de programação de semanas

Claude Opus 4.6 reimplementou ferramenta de 16 mil linhas de código, tarefa estimada em até 17 semanas para um humano, gastando US$550.

11/04 às 09:00

Pontos principais

MirrorCode é benchmark de tarefas de programação de longa duração criado pela METR e Epoch AI
Claude Opus 4.6 reimplementou o gotree — ferramenta de bioinformática com ~16 mil linhas de Go e 40+ comandos
Tarefa estimada em 2 a 17 semanas para um engenheiro humano sem assistência de IA
Agente gastou cerca de US$550 em computação e passou em 99,95% dos testes
Pesquisadores observaram ganhos contínuos conforme se aumenta o orçamento de tokens
Benchmark inclui mais de 20 programas-alvo em áreas como utilitários Unix, bioinformática e criptografia

A METR e a Epoch AI publicaram resultados preliminares do MirrorCode, benchmark que testa a capacidade de agentes de IA em reimplementar programas reais sem acesso ao código-fonte. O Claude Opus 4.6 conseguiu reimplementar do zero o gotree, ferramenta de bioinformática com aproximadamente 16 mil linhas de código Go e mais de 40 comandos.

O agente tomou decisões arquiteturais de forma autônoma, gastou cerca de US$550 em computação e passou em 99,95% dos testes. Os pesquisadores estimam que a mesma tarefa levaria de 2 a 17 semanas para um engenheiro humano. O benchmark inclui mais de 20 programas que abrangem utilitários Unix, serialização de dados, interpretadores, análise estática e compressão — e os ganhos continuam crescendo conforme se aumenta o orçamento de tokens.

MirrorCode mostra que agentes de IA completam tarefas de programação de semanas

Pontos principais

Fontes

Evidências de que IA já consegue realizar tarefas de programação de semanas

Leia também

Anthropic lança Claude Sonnet 5 com foco em agentes autônomos

Anthropic introduz fluxos de trabalho dinâmicos no Claude Code

Anthropic lança Claude Opus 4.8 com foco em automação e codificação

IAs da Anthropic resolvem 97% de tarefa de alinhamento; humanos ficam em 23%

DeepSeek V4 lança na próxima semana: modelo de 1 trilhão de parâmetros otimizado para chips chineses

Comentários