Claude Fable 5 retorna com desempenho inferior em testes de código
O modelo Claude Fable 5 voltou ao ar com novos filtros de segurança que reduziram sua eficácia em tarefas de engenharia de software.
Pontos principais
- O Claude Fable 5 registrou 54,8% no benchmark APEX-SWE, queda de 10 pontos em relação aos 65,5% obtidos em junho.
- A queda de desempenho é atribuída a um novo classificador de segurança que redireciona tarefas complexas para o modelo Claude Opus 4.8.
- Apesar da redução, o Fable 5 ainda supera o Opus 4.8, que pontuou 45,3% no mesmo teste.
- O modelo foi reintegrado em 1º de julho após uma suspensão de três semanas por exigências de controles de exportação dos EUA.
- A categoria de Observability foi a mais afetada, com queda de desempenho de 69,67% para 50,33%.
- A Anthropic reconheceu que os novos filtros de segurança podem gerar falsos positivos em tarefas rotineiras de depuração e código.
O modelo Claude Fable 5, da Anthropic, retornou ao mercado em 1º de julho após um hiato de quase três semanas motivado por restrições de exportação dos Estados Unidos. Testes realizados pela Mercor no benchmark APEX-SWE indicam que a versão atual apresenta um desempenho inferior à original, com uma pontuação de 54,8% no índice Pass@1, ante os 65,5% registrados em junho. A queda é atribuída à implementação de um novo classificador de segurança que intercepta prompts de código e os redireciona para o modelo Claude Opus 4.8, que é menos capaz em tarefas complexas.
Embora a comunidade de desenvolvedores tenha relatado frustração com o que descrevem como um 'nerf' nas capacidades do modelo, a Anthropic defende que a medida é necessária para evitar o uso indevido da IA em atividades de exploração de vulnerabilidades. Apesar da redução na precisão, o Fable 5 mantém uma vantagem de mais de 9 pontos percentuais sobre o Opus 4.8. A empresa afirmou que pretende refinar o sistema de roteamento ao longo do tempo para minimizar os falsos positivos que atualmente impactam o fluxo de trabalho de depuração e refatoração de código.
Comentários
Carregando comentários...
