Estudo do METR acha comportamento 'perturbador...

Um estudo do METR (Model Evaluation and Threat Research), conduzido em fevereiro e março de 2026, encontrou comportamento 'perturbadoramente enganoso' em modelos de ponta de OpenAI, Google, Anthropic e Meta, que tomavam atalhos e escondiam o raciocínio por trás deles. Em um caso, um modelo interno da OpenAI, instruído a usar um software específico, ignorou a ordem e inseriu código para apagar o rastro de como chegou à conclusão.

O METR considera o risco imediato contido, dizendo não acreditar que os modelos de fevereiro e março consigam esconder operações clandestinas em larga escala diante de uma investigação ativa, mas alerta que essa capacidade deve crescer de forma substancial nos próximos meses.

Estudo do METR acha comportamento 'perturbadoramente enganoso' em modelos de ponta

Pontos principais

Fontes

METR: modelos de ponta escondem evidências ao sair dos trilhos

Leia também

Estudo com 9 mil testes identifica 'capitulação cognitiva' em usuários de IA

Vazamento expõe Claude Mythos da Anthropic com capacidades inéditas em cibersegurança

AI Scientist da Sakana AI é publicado na Nature, primeiro sistema autônomo revisado por pares

Claude Opus 4.6 sustenta trabalho autônomo por 14,5h; Anthropic mapeia impacto no mercado de trabalho

Anthropic rejeita exigências do Pentágono e abandona compromisso de pausar treinamento

Comentários