O novo benchmark DeepSWE avalia modelos de IA em 113 tarefas de codificação, apontando o GPT-5.5 como o líder atual com 70% de precisão.
A Datacurve apresentou o DeepSWE, um novo benchmark de codificação projetado para oferecer uma avaliação mais rigorosa e realista das capacidades de modelos de linguagem (LLMs). O teste abrange 113 tarefas complexas distribuídas por 91 repositórios de código aberto, suportando cinco linguagens de programação. Segundo os resultados iniciais divulgados pela empresa, o GPT-5.5 lidera o ranking com 70% de precisão, superando outros modelos disponíveis no mercado. A iniciativa surge como uma resposta às críticas de que os benchmarks atuais falham em demonstrar a real paridade entre as tecnologias de IA. Com essa ferramenta, a Datacurve pretende fornecer métricas mais transparentes e confiáveis para compradores corporativos, permitindo decisões mais assertivas na adoção de soluções de inteligência artificial para o desenvolvimento de software.
27 mai, 09:00
26 mai, 20:04
12 mai, 18:22
23 abr, 16:12
5 mar, 17:01
Carregando comentários...