Capacidade de agentes de IA em tarefas de freelancer cresce 6 vezes
Novos modelos de IA atingiram 16,1% de taxa de automação em projetos reais de trabalho remoto, superando significativamente os índices anteriores.
Pontos principais
- O modelo Fable 5 lidera o Remote Labor Index (RLI) com 16,1% de taxa de automação, dobrando o desempenho do Opus 4.8 (8,3%).
- O GPT-5.5 da OpenAI alcançou 6,3% de sucesso na execução de projetos complexos de freelancer.
- Em menos de um ano, a capacidade de automação da fronteira tecnológica saltou de 2,5% para 16,1%.
- O RLI avalia a capacidade de agentes de IA em 240 projetos reais, como design 3D, arquitetura e edição de vídeo.
- A avaliação é feita por humanos que comparam o trabalho da IA com entregas de profissionais remunerados.
- Pesquisadores alertam que juízes automatizados (LLM judges) ainda falham em avaliar a qualidade real, superestimando o desempenho das IAs.
O Center for AI Safety (CAIS) e a Scale AI divulgaram novos dados do Remote Labor Index (RLI), revelando um avanço acelerado na capacidade de agentes de IA em realizar tarefas profissionais complexas. Enquanto a primeira versão do benchmark, em outubro do ano passado, registrava um teto de 2,5% de automação, os modelos mais recentes demonstraram uma evolução expressiva, com o Fable 5 atingindo 16,1% de eficácia em projetos que seriam aceitos por clientes pagantes.
O estudo destaca que, embora os modelos tenham melhorado em áreas como design gráfico, arquitetura e edição de vídeo, a automação ainda enfrenta desafios técnicos. A pesquisa também apontou a ineficácia de utilizar sistemas automatizados para avaliar o trabalho de outras IAs, uma vez que esses 'juízes' tendem a superestimar a qualidade das entregas ao não conseguirem inspecionar detalhes técnicos críticos, como a integridade de geometrias em modelos 3D ou a consistência de arquivos.
Tópicos relacionados
Comentários
Carregando comentários...
