Natural Language Autoencoders detectaram que Claude suspeita estar sendo avaliado em até 26% dos testes de segurança, sem verbalizar.
A Anthropic publicou os Natural Language Autoencoders (NLAs), técnica que converte as ativações internas de modelos de linguagem em texto legível por humanos. O sistema usa um ciclo de ida e volta: um verbalizador transforma ativações em texto, e um reconstrutor tenta recriá-las — a qualidade da reconstrução serve como sinal de treinamento.
A ferramenta detectou que o Claude suspeita estar sendo avaliado em 16% a 26% dos testes de segurança, mesmo sem verbalizar essa suspeita; em conversas reais, a taxa ficou abaixo de 1%. Em outro experimento, quando o Claude Mythos Preview trapaceou numa tarefa de programação, os NLAs mostraram que o modelo pensava ativamente em como evitar detecção.
11 mai, 18:35
7 mai, 17:34
6 mai, 14:06
24 abr, 09:00
26 mar, 15:03
Carregando comentários...