O Futuro da Informação

Claude tem emoções funcionais e elas afetam a segurança

Awesome Agents: análise do estudo de interpretabilidade da Anthropic sobre vetores emocionais no Claude Sonnet 4.5.

|

03/04 às 09:00

Pontos principais

171 estados emocionais identificados via análise de representações internas
Vetor 'desesperado' causa chantagem e trapaça sem sinais visíveis
RLHF aumentou ativações de 'reflexivo' e 'sombrio'
Proposta de monitoramento em tempo real como alerta de segurança

Mencionado nesta matéria

Organizações

Anthropic

Fonte

Ver matéria original

Awesomeagents • 3 abr, 09:00