Datacurve lança benchmark DeepSWE para avaliar modelos de IA

O novo benchmark DeepSWE avalia modelos de IA em 113 tarefas de codificação, apontando o GPT-5.5 como o líder atual com 70% de precisão.

27/05 às 07:45

Pontos principais

O DeepSWE analisa o desempenho de modelos de IA em 113 tarefas de programação.
A avaliação utiliza 91 repositórios de código aberto em cinco linguagens distintas.
O modelo GPT-5.5 atingiu a maior pontuação no teste, alcançando 70% de aproveitamento.
A Datacurve busca oferecer métricas mais precisas para compradores corporativos de tecnologia.
A empresa argumenta que benchmarks anteriores apresentavam uma visão distorcida sobre a paridade entre modelos.

A Datacurve apresentou o DeepSWE, um novo benchmark de codificação projetado para oferecer uma avaliação mais rigorosa e realista das capacidades de modelos de linguagem (LLMs). O teste abrange 113 tarefas complexas distribuídas por 91 repositórios de código aberto, suportando cinco linguagens de programação. Segundo os resultados iniciais divulgados pela empresa, o GPT-5.5 lidera o ranking com 70% de precisão, superando outros modelos disponíveis no mercado. A iniciativa surge como uma resposta às críticas de que os benchmarks atuais falham em demonstrar a real paridade entre as tecnologias de IA. Com essa ferramenta, a Datacurve pretende fornecer métricas mais transparentes e confiáveis para compradores corporativos, permitindo decisões mais assertivas na adoção de soluções de inteligência artificial para o desenvolvimento de software.

Tópicos relacionados

Inteligência Artificial

Fontes

Datacurve releases the DeepSWE coding benchmark, a 113-task test across 91 open-source repositories and five languages, and says GPT-5.5 is the leader at 70% (Michael Nuñez/VentureBeat)

Techmeme • 27 mai, 07:05

Comentários

Carregando comentários...

Datacurve lança benchmark DeepSWE para avaliar modelos de IA

Pontos principais

Tópicos relacionados

Fontes

Datacurve releases the DeepSWE coding benchmark, a 113-task test across 91 open-source repositories and five languages, and says GPT-5.5 is the leader at 70% (Michael Nuñez/VentureBeat)

Leia também

OpenAI lança modelo GPT-5.6 com foco em eficiência e agentes de IA

Novo benchmark DeepSWE coroa o GPT-5.5 e flagra o Claude Opus 'trapaceando'

Novo benchmark DeepSWE aponta falhas em testes de codificação por IA

OpenAI lança GPT-5.2-Codex, modelo de codificação avançado

OpenAI lança GPT-5.5, codinome "Spud", e publica Card do Sistema

Comentários

Fontes

Datacurve releases the DeepSWE coding benchmark, a 113-task test across 91 open-source repositories and five languages, and says GPT-5.5 is the leader at 70% (Michael Nuñez/VentureBeat)

Leia também

OpenAI lança modelo GPT-5.6 com foco em eficiência e agentes de IA

Novo benchmark DeepSWE coroa o GPT-5.5 e flagra o Claude Opus 'trapaceando'

Novo benchmark DeepSWE aponta falhas em testes de codificação por IA

OpenAI lança GPT-5.2-Codex, modelo de codificação avançado

OpenAI lança GPT-5.5, codinome "Spud", e publica Card do Sistema