O modelo GPT-5.5 da OpenAI liderou o Agents’ Last Exam, superando o Claude Fable 5 em testes de execução de tarefas complexas em ambientes desktop.
O recém-lançado benchmark Agents’ Last Exam (ALE), desenvolvido por mais de 300 especialistas, colocou à prova a eficiência de agentes de IA em cenários profissionais reais. O GPT-5.5, da OpenAI, superou o Claude Fable 5, da Anthropic, ao registrar uma taxa de aprovação de 24%, contra 22% do concorrente. O diferencial do ALE reside na exigência de navegação em ambientes desktop e na execução de tarefas complexas, minimizando avaliações puramente textuais e utilizando uma base de dados sigilosa para evitar contaminação. Apesar da liderança do GPT-5.5, os resultados globais indicam um desafio persistente para a indústria: nenhum modelo foi capaz de concluir com sucesso as tarefas de nível mais elevado, evidenciando que, embora os modelos estejam evoluindo, a autonomia em fluxos de trabalho complexos de longo prazo permanece limitada.
9 jun, 17:45
15 mai, 21:32
5 mai, 15:04
23 abr, 16:12
5 mar, 17:01
Carregando comentários...