Pesquisadores de alinhamento automatizados: usando LLMs para escalar supervisão escalável
Anthropic: nove agentes Claude Opus 4.6 superaram humanos em tarefa de alinhamento, fechando 97% da lacuna de desempenho em cinco dias.
|
15/04 às 09:00
Pontos principais
- Experimento usou Qwen 3-4B-Base como modelo forte e Qwen 1.5-0.5B-Chat como professor fraco
- Cada agente recebeu prompts iniciais ligeiramente diferentes para diversificar abordagens
- Custo de US$22 por hora de pesquisa automatizada
Mencionado nesta matéria
Organizações
Anthropic
