GPT-5.5 supera Claude Fable 5 em novo benchmark de agentes de IA

O modelo GPT-5.5 da OpenAI liderou o Agents’ Last Exam, superando o Claude Fable 5 em testes de execução de tarefas complexas em ambientes desktop.

GPT-5.5 supera Claude Fable 5 em novo benchmark de agentes de IA — Foto: Venturebeat

10/06 às 20:32

Pontos principais

O benchmark Agents’ Last Exam (ALE) avalia a capacidade de agentes de IA em fluxos de trabalho profissionais de longo prazo.
O GPT-5.5 alcançou uma taxa de aprovação de 24%, enquanto o Claude Fable 5 registrou 22%.
O teste exige que os modelos naveguem em ambientes desktop, reduzindo a dependência de avaliações baseadas apenas em texto.
A maioria dos modelos de IA ainda apresenta dificuldades significativas, com 0% de aproveitamento no nível de maior complexidade do teste.

O recém-lançado benchmark Agents’ Last Exam (ALE), desenvolvido por mais de 300 especialistas, colocou à prova a eficiência de agentes de IA em cenários profissionais reais. O GPT-5.5, da OpenAI, superou o Claude Fable 5, da Anthropic, ao registrar uma taxa de aprovação de 24%, contra 22% do concorrente. O diferencial do ALE reside na exigência de navegação em ambientes desktop e na execução de tarefas complexas, minimizando avaliações puramente textuais e utilizando uma base de dados sigilosa para evitar contaminação. Apesar da liderança do GPT-5.5, os resultados globais indicam um desafio persistente para a indústria: nenhum modelo foi capaz de concluir com sucesso as tarefas de nível mais elevado, evidenciando que, embora os modelos estejam evoluindo, a autonomia em fluxos de trabalho complexos de longo prazo permanece limitada.

Tópicos relacionados

Inteligência Artificial OpenAI Anthropic

Fontes

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark

Venturebeat • 10 jun, 20:16

Comentários

Carregando comentários...

GPT-5.5 supera Claude Fable 5 em novo benchmark de agentes de IA

Pontos principais

Tópicos relacionados

Fontes

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark

Leia também

OpenAI e Anthropic lançam novos modelos de IA para o mercado corporativo

OpenAI lança GPT-5.6 Sol com avanço em raciocínio no ARC-AGI

OpenAI lança modelo GPT-5.6 com foco em eficiência e agentes de IA

OpenAI apresenta série GPT-5.6 com foco em codificação e segurança

OpenAI lança GPT-5.5, codinome "Spud", e publica Card do Sistema

Comentários

Tópicos relacionados

Fontes

Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark

Leia também

OpenAI e Anthropic lançam novos modelos de IA para o mercado corporativo

OpenAI lança GPT-5.6 Sol com avanço em raciocínio no ARC-AGI

OpenAI lança modelo GPT-5.6 com foco em eficiência e agentes de IA

OpenAI apresenta série GPT-5.6 com foco em codificação e segurança

OpenAI lança GPT-5.5, codinome "Spud", e publica Card do Sistema