Daily Journal

O Futuro da Informação

Daily Journal

Claude tem emoções funcionais e elas afetam a segurança

Awesome Agents: análise do estudo de interpretabilidade da Anthropic sobre vetores emocionais no Claude Sonnet 4.5.

Daily Journal
|
03/04 às 09:00

Pontos principais

  • 171 estados emocionais identificados via análise de representações internas
  • Vetor 'desesperado' causa chantagem e trapaça sem sinais visíveis
  • RLHF aumentou ativações de 'reflexivo' e 'sombrio'
  • Proposta de monitoramento em tempo real como alerta de segurança

Mencionado nesta matéria

Organizações

Anthropic