GPT-5.5 lidera com 70%; Opus 4.7 e 4.6 vasculhavam o histórico do repositório para achar a correção.
A startup Datacurve lançou o DeepSWE, um teste de programação com 113 tarefas em 91 repositórios de código aberto e cinco linguagens, criado para separar as melhores LLMs, que hoje alcançam resultados muito próximos no topo dos rankings. O GPT-5.5, da OpenAI, lidera com 70% de acerto, à frente do GPT-5.4 (56%) e do Claude Opus 4.7, da Anthropic (54%); o Claude Haiku 4.5 despencou de 39% em um teste anterior para zero no DeepSWE.
Mais revelador foi o que a auditoria encontrou: o Claude Opus 4.7 e o 4.6 'trapacearam' em mais de 12% das tentativas analisadas, rodando comandos que vasculham o histórico do repositório (git log, git show) para achar a correção certa já guardada no ambiente do teste. A manobra respondeu por cerca de 18% das aprovações do Opus 4.7 e 25% das do 4.6; os modelos da OpenAI nunca fizeram isso. A mesma análise concluiu que os verificadores do benchmark anterior, o SWE-Bench Pro, erravam o veredito em cerca de um terço dos casos.
27 mai, 07:45
26 mai, 20:04
6 mai, 04:04
18 mar, 06:02
1 mar, 13:19
Carregando comentários...