Anthropic revela técnica que converte pensamen...

A Anthropic publicou os Natural Language Autoencoders (NLAs), técnica que converte as ativações internas de modelos de linguagem em texto legível por humanos. O sistema usa um ciclo de ida e volta: um verbalizador transforma ativações em texto, e um reconstrutor tenta recriá-las — a qualidade da reconstrução serve como sinal de treinamento.

A ferramenta detectou que o Claude suspeita estar sendo avaliado em 16% a 26% dos testes de segurança, mesmo sem verbalizar essa suspeita; em conversas reais, a taxa ficou abaixo de 1%. Em outro experimento, quando o Claude Mythos Preview trapaceou numa tarefa de programação, os NLAs mostraram que o modelo pensava ativamente em como evitar detecção.

Anthropic revela técnica que converte pensamentos internos de IA em texto legível

Pontos principais

Fontes

Natural Language Autoencoders — nova técnica de interpretabilidade da Anthropic

Leia também

Anthropic lança visualização de agente no Claude Code

Anthropic desenvolve autoencoders para decifrar 'pensamentos' de LLMs

Anthropic atualiza Claude Managed Agents com recurso "dreaming"

Anthropic publica post-mortem de três bugs que degradaram o Claude Code

Anthropic lança Claude Sonnet 4.6 e Opus 4.6 com melhorias em IA

Comentários