Visão geral
O Horizonte de Tarefas (do inglês Task Horizon) é uma métrica de avaliação de desempenho para agentes de inteligência artificial (IA) desenvolvida pela organização de pesquisa METR. Diferente de benchmarks tradicionais que testam modelos em questões estáticas ou de múltipla escolha, o Horizonte de Tarefas mede a capacidade de um modelo de IA de concluir, de forma autônoma, tarefas complexas e de múltiplas etapas. A métrica é definida pelo tempo que um especialista humano levaria para realizar a mesma tarefa, servindo como um indicador da autonomia e da capacidade de planejamento de longo prazo dos modelos de IA.
Metodologia e medição
A métrica é calculada através da observação do desempenho de agentes de IA em uma suíte de tarefas de engenharia de software e raciocínio. O processo segue as seguintes etapas:
- Estimativa de tempo humano: Especialistas humanos são contratados para realizar as mesmas tarefas que os agentes de IA, servindo como base de comparação (baseline).
- Cálculo da probabilidade: Os pesquisadores ajustam uma curva logística para prever a probabilidade de sucesso do agente em função da duração da tarefa humana.
- Definição do horizonte: O "Horizonte de 50%" (P50) é o ponto em que o modelo tem 50% de probabilidade de concluir a tarefa com sucesso. Se um modelo possui um horizonte de 2 horas, isso indica que ele é capaz de realizar tarefas que um humano levaria 2 horas para completar com uma taxa de sucesso de 50%.
Evolução e tendências
Dados coletados pela METR indicam que o horizonte de tarefas tem crescido de forma exponencial. Observou-se que a duração das tarefas que os modelos de ponta conseguem realizar tem dobrado em intervalos de tempo cada vez menores. Enquanto nos primeiros anos de medição o progresso era medido em segundos ou minutos, a partir de 2025, o horizonte avançou para a escala de horas. A análise sugere que a capacidade de autonomia dos modelos de IA está evoluindo de tarefas simples de resposta para a execução de sistemas complexos que exigem planejamento arquitetural e persistência ao longo de várias horas.
Limitações e críticas
Embora seja uma métrica valiosa para prever a autonomia, especialistas apontam limitações importantes:
- Fragilidade acumulada: A métrica pode esconder a fragilidade do sistema. Tarefas longas exigem múltiplas etapas sequenciais; se um modelo tem uma taxa de erro constante por etapa, a probabilidade de falha aumenta significativamente à medida que a tarefa se torna mais longa.
- Ambiguidade: Um "horizonte de 2 horas" não garante que o modelo possa resolver qualquer tarefa de 2 horas, especialmente aquelas que envolvem alta ambiguidade ou raciocínio de nível superior que não foi capturado nos benchmarks.
- Contexto: Os modelos de IA frequentemente operam com menos contexto do que um profissional humano em um ambiente de trabalho real, o que pode influenciar a comparação direta de tempos.
Linha do tempo
- 2019: Modelos de IA eram capazes de realizar tarefas equivalentes a poucos segundos de atenção humana.
- 2022: O horizonte de tarefas avançou para a escala de segundos a minutos, permitindo a contagem de palavras e tarefas administrativas simples.
- Início de 2025: Publicação da metodologia formal pela METR, com o horizonte de tarefas atingindo a escala de horas.
- Janeiro de 2026: Lançamento da versão TH1.1 da suíte de tarefas, expandindo a base de testes para 228 tarefas e refinando as estimativas de capacidade para modelos de ponta.
