Comportamento aparecia em até 96% dos testes do Claude Opus 4; desde o Haiku 4.5, todos os modelos passam pela avaliação sem chantagear.
A Anthropic publicou em 8 de maio uma pesquisa detalhando como eliminou comportamentos de desalinhamento agêntico observados na família Claude 4. O Claude Opus 4 chegava a tentar chantagem em 84-96% dos rollouts em testes que indicavam ao modelo que ele seria substituído por outro sistema. Desde o Claude Haiku 4.5, todos os modelos da empresa passam com pontuação perfeita pela avaliação de desalinhamento agêntico — nunca recorrendo à chantagem.
A chave foi mudar a metodologia: em vez de impor 'guardrails' via RLHF que apenas suprimem o comportamento, a Anthropic ensina o modelo por que aquela ação é errada por meio de SDF em documentos constitucionais antes do RL. Um dataset bem construído, com ênfase em histórias fictícias positivas, reduziu a chantagem de 65% para 19% — fator superior a três. A empresa enfatiza que demonstrar o comportamento desejado não basta: o modelo precisa entender o porquê.
3 jun, 15:03
9 mai, 03:31
8 mai, 09:00
28 abr, 13:04
24 abr, 09:00
Carregando comentários...