ByteDance lança EdgeBench para medir aprendizado de agentes de IA
O novo benchmark avalia a capacidade de agentes de IA aprenderem em tarefas complexas de longa duração, revelando padrões de evolução previsíveis.
Pontos principais
- O EdgeBench inclui 134 tarefas de longa duração, com 51 delas disponibilizadas publicamente.
- As tarefas exigem que agentes operem continuamente por períodos entre 12 e 72 horas.
- Pesquisadores identificaram uma lei de escala log-sigmoide (R²=0,998) que prevê o aprendizado dos modelos.
- A velocidade de aprendizado dos agentes de IA tem dobrado a cada três meses, segundo dados de 2025 e 2026.
- O estudo analisou cerca de 38 mil horas de interação entre agentes e ambientes de teste.
- As tarefas abrangem áreas como engenharia de sistemas, matemática formal, otimização e machine learning.
A divisão de pesquisa ByteDance Seed lançou o EdgeBench, um framework de avaliação focado em medir como agentes de IA desenvolvem competências ao interagir com ambientes reais por longos períodos. Diferente de benchmarks tradicionais que testam conhecimentos estáticos, o EdgeBench utiliza 134 tarefas complexas que demandam de 12 a mais de 72 horas de execução contínua, exigindo que a IA aprenda a lidar com feedback iterativo e problemas de mundo real. O projeto utiliza o harness SForge para garantir o isolamento entre o ambiente de trabalho e o de avaliação, prevenindo manipulações nos resultados. A análise de 38 mil horas de interação revelou que o progresso dos modelos segue uma curva log-sigmoide altamente previsível, indicando que a capacidade de aprendizado dos agentes de fronteira tem dobrado trimestralmente desde setembro de 2025.
Comentários
Carregando comentários...
