OpenAI lança GPT-5.5 com 82,7% no Terminal-Bench, mas fica atrás do Opus 4.7 em bugs reais

Novo modelo lidera benchmarks sintéticos, mas no SWE-Bench Pro marca 58,6% contra 64,3% do Claude Opus 4.7 da Anthropic.

24/04 às 09:00

Pontos principais

GPT-5.5 alcança 82,7% no Terminal-Bench 2.0, contra 69,4% do Claude Opus 4.7
No SWE-Bench Pro (bugs reais do GitHub), GPT-5.5 marca 58,6% contra 64,3% do Opus 4.7
API custa US$5/M tokens de input e US$30/M de output — o dobro do GPT-5.4
Lançado no mesmo dia que o DeepSeek V4

A OpenAI lançou o GPT-5.5, que alcançou 82,7% no Terminal-Bench 2.0, superando o Claude Opus 4.7 (69,4%) e o Gemini 3.1 Pro (68,5%) em benchmarks sintéticos. No entanto, em bugs reais do GitHub medidos pelo SWE-Bench Pro, o resultado ainda fica aquém: 58,6% contra 64,3% do Opus 4.7 da Anthropic.

O modelo custa US$5 por milhão de tokens de input e US$30 por milhão de output — o dobro do GPT-5.4 — mas a OpenAI diz que ele usa cerca de 40% menos tokens de output para tarefas equivalentes, limitando o aumento real de custo a cerca de 20%. Disponível para usuários Plus, Pro, Business e Enterprise.

O Futuro da Informação

OpenAI lança GPT-5.5 com 82,7% no Terminal-Bench, mas fica atrás do Opus 4.7 em bugs reais

Pontos principais

Fontes

OpenAI lança GPT-5.5: mais rápido, mais inteligente — e mais caro

GPT-5.5 está disponível — o que os números realmente dizem

Leia também

Kimi K2.6 supera Opus 4.6 e GPT-5.4 em programação autônoma por um décimo do preço

Anthropic lança Claude Opus 4.7 com 87,6% no SWE-bench Verified

Vazamento expõe Claude Mythos da Anthropic com capacidades inéditas em cibersegurança

Humanity's Last Exam publicado na Nature: melhores modelos acertam só 40-50%

OpenAI lança GPT-5.4 com uso nativo de computadores e janela de 1M de tokens