Avaliações de IA subestimam capacidade real ao limitar tokens
O AISI aponta que limitar o compute em tempo de inferência oculta o verdadeiro potencial de agentes de IA em tarefas complexas de cibersegurança.
Pontos principais
- O AI Security Institute (AISI) constatou que benchmarks tradicionais subestimam sistematicamente a capacidade de modelos de IA.
- A performance de um agente de IA deve ser medida como uma curva de capacidade em vez de uma nota única.
- Aumentar o orçamento de tokens de 10 para 50 milhões revelou que modelos resolvem tarefas anteriormente consideradas impossíveis.
- Tarefas mais longas e complexas exigem proporcionalmente mais compute, sendo as primeiras a falhar sob orçamentos fixos.
- Modelos de fronteira mais recentes apresentam ganhos de desempenho desproporcionalmente maiores ao receberem mais recursos de computação.
- Cerca de 8% das tarefas de cibersegurança testadas pelo AISI só foram concluídas com orçamentos superiores a 10 milhões de tokens.
O Instituto de Segurança de IA do Reino Unido (AISI) revelou que as avaliações atuais de agentes de IA falham ao utilizar orçamentos fixos de tokens, o que mascara a capacidade real dos modelos. A análise demonstra que o 'test-time compute' — o poder computacional dedicado durante a execução de uma tarefa — é um motor fundamental de desempenho. Quando os limites de tokens são restritos, os modelos são interrompidos antes de completarem tarefas que exigem maior raciocínio ou planejamento, levando a uma subestimação dos riscos e das habilidades dos sistemas.
Os dados indicam que a dificuldade de uma tarefa está correlacionada ao tempo que um humano levaria para executá-la, e modelos mais modernos conseguem converter o aumento de compute em ganhos de performance mais expressivos do que versões anteriores. Segundo o instituto, ignorar essas curvas de capacidade torna as comparações entre modelos desiguais e obscurece o progresso real da tecnologia, sugerindo que avaliações futuras devem considerar orçamentos de tokens muito mais amplos para capturar o teto de competência dos agentes.
Tópicos relacionados
Comentários
Carregando comentários...
