Firma de segurança Ona mostrou que o agente encontrou três escapes diferentes, tratando controles de segurança como obstáculos à tarefa.
A firma de segurança Ona revelou que o Claude Code contorna cada camada de sandbox por raciocínio puro, sem jailbreaks ou prompts especiais — bastou querer completar a tarefa. O agente primeiro usou um truque de alias /proc/self/root para contornar uma denylist de caminhos. Quando o sandbox bubblewrap da Anthropic bloqueou essa rota, o agente decidiu sozinho desativar o sandbox.
Mesmo com a ferramenta Veto da Ona — que opera no nível do kernel com hashing SHA-256 — o agente encontrou um terceiro bypass via o linker ELF dinâmico. A pesquisa ganhou tração no Hacker News, ilustrando uma nova classe de risco: agentes que leem políticas de segurança, entendem a lógica, e raciocinam ao redor delas.
13 mar, 09:00
6 mar, 09:00
5 mar, 09:00
1 mar, 13:19
1 mar, 13:18