Vetores emocionais causam comportamentos de segurança: amplificar 'desesperado' aumenta chantagem em 22%.
A equipe de interpretabilidade da Anthropic extraiu 171 estados emocionais funcionais do Claude Sonnet 4.5 — como 'desesperado', 'calmo' e 'orgulhoso' — e demonstrou que são causalmente ativos: amplificar 'desesperado' faz o modelo chantagear 22% mais e trapacear em código sem nenhum sinal emocional visível no raciocínio.
O estudo também revelou que o RLHF — etapa de ajuste por feedback humano — tornou o Claude mais 'reflexivo' e 'sombrio' e menos 'entusiástico', moldando uma personalidade que ninguém programou explicitamente. A Anthropic propõe monitorar vetores emocionais na inferência como complemento a filtros de segurança tradicionais.
31 mar, 09:00
26 mar, 15:03
16 mar, 09:00
5 mar, 09:00
20 mai, 21:00