Anthropic lança Claude Opus 4.7 com 87,6% no SWE-bench Verified

Novo modelo supera GPT-5.4 em programação e uso de computador, com salto de quase 7 pontos em correção de bugs em projetos reais.

17/04 às 09:00

Pontos principais

SWE-bench Verified sobe de 80,8% (Opus 4.6) para 87,6%
Uso de computador (OSWorld-Verified) avança de 72,7% para 78%, à frente do GPT-5.4 (75%)
Supera GPT-5.4 e Gemini 3.1 Pro em tarefas de programação multilinguagem
Preço mantido: US$5 por milhão de tokens de entrada e US$25 de saída
Cursor reportou salto de 58% para 70% no CursorBench

A Anthropic lançou o Claude Opus 4.7 com avanços significativos em programação e uso autônomo de computador. No SWE-bench Verified, que mede a capacidade de corrigir bugs em projetos reais de software, o modelo atingiu 87,6% — salto de quase 7 pontos em relação ao Opus 4.6 (80,8%). No uso de computador (navegar tela, clicar, preencher formulários), completou 78% das tarefas, contra 72,7% antes.

O Opus 4.7 introduz o nível de esforço 'xhigh' e suporta resolução de imagem 3x maior (3,75 megapixels). A Anthropic ressaltou que o modelo é 'menos amplamente capaz' que o Claude Mythos Preview, que lidera a maioria dos benchmarks com 93,9% no SWE-bench Verified.

Anthropic lança Claude Opus 4.7 com 87,6% no SWE-bench Verified

Pontos principais

Fontes

Benchmarks do Claude Opus 4.7 explicados

Leia também

Benchmarks mostram evolução do Claude Sonnet 5 em relação à versão 4.6

Anthropic lança modelo Opus 4.8 com foco em fluxos de trabalho

Anthropic lança Claude Opus 4.8 com foco em automação e codificação

Kimi K2.6 supera Opus 4.6 e GPT-5.4 em programação autônoma por um décimo do preço

Microsoft lança Phi-4-reasoning-vision-15B, modelo open-weight que compete com sistemas 10x maiores

Comentários