IAs da Anthropic resolvem 97% de tarefa de alinhamento; humanos ficam em 23%

Nove cópias do Claude Opus 4.6 superaram dois pesquisadores humanos em cinco dias e US$18 mil de custo computacional.

15/04 às 09:00

Pontos principais

Nove cópias do Claude Opus 4.6 receberam ambientes isolados e um fórum compartilhado para melhorar técnicas de alinhamento
Em cinco dias e 800 horas acumuladas, as IAs fecharam 97% da lacuna de desempenho (PGR de 0,97)
Dois humanos, com sete dias, fecharam apenas 23% (PGR de 0,23)
Custo total de aproximadamente US$18 mil em tokens e treinamento, ou US$22 por hora de pesquisa automatizada
As IAs descobriram abordagens de alinhamento que os humanos não haviam considerado

A Anthropic conduziu um experimento em que nove cópias do Claude Opus 4.6, seu modelo mais avançado, receberam cada uma um ambiente isolado de programação e um fórum compartilhado. A tarefa: melhorar técnicas de supervisão escalável — um proxy para garantir que IAs mais inteligentes que humanos continuem seguindo instruções.

Em cinco dias e US$18 mil em custos computacionais, as IAs resolveram 97% do problema proposto (PGR de 0,97). Dois pesquisadores humanos, com sete dias, resolveram apenas 23%. Os pesquisadores automatizados também descobriram abordagens que os humanos não haviam considerado, ampliando o espaço de exploração em pesquisa de alinhamento.

Fontes

Pesquisadores de alinhamento automatizados: usando LLMs para escalar supervisão escalável

Anthropic • 15 abr, 09:00

Comentários

Carregando comentários...

IAs da Anthropic resolvem 97% de tarefa de alinhamento; humanos ficam em 23%

Pontos principais

Fontes

Pesquisadores de alinhamento automatizados: usando LLMs para escalar supervisão escalável

Leia também

Anthropic libera acesso global ao modelo Claude Fable 5

Anthropic lança Opus 4.8 e fluxos de trabalho dinâmicos no Claude Code

Anthropic introduz fluxos de trabalho dinâmicos no Claude Code

Anthropic lança Claude Opus 4.8 com foco em automação e codificação

MirrorCode mostra que agentes de IA completam tarefas de programação de semanas

Comentários

Fontes

Pesquisadores de alinhamento automatizados: usando LLMs para escalar supervisão escalável

Leia também

Anthropic libera acesso global ao modelo Claude Fable 5

Anthropic lança Opus 4.8 e fluxos de trabalho dinâmicos no Claude Code

Anthropic introduz fluxos de trabalho dinâmicos no Claude Code

Anthropic lança Claude Opus 4.8 com foco em automação e codificação

MirrorCode mostra que agentes de IA completam tarefas de programação de semanas