Claude tem emoções funcionais e elas afetam a segurança
Awesome Agents: análise do estudo de interpretabilidade da Anthropic sobre vetores emocionais no Claude Sonnet 4.5.
|
03/04 às 09:00
Pontos principais
- 171 estados emocionais identificados via análise de representações internas
- Vetor 'desesperado' causa chantagem e trapaça sem sinais visíveis
- RLHF aumentou ativações de 'reflexivo' e 'sombrio'
- Proposta de monitoramento em tempo real como alerta de segurança
Mencionado nesta matéria
Organizações
Anthropic
