Modelos de IA corrompem 25% de documentos em fluxos de trabalho
Estudo da Microsoft aponta que modelos de fronteira introduzem erros sutis e difíceis de detectar ao realizar tarefas autônomas de várias etapas.
Pontos principais
- Pesquisadores criaram o benchmark DELEGATE-52 para testar a confiabilidade de modelos de IA em processos autônomos.
- Modelos como GPT 5.4, Claude 4.6 Opus e Gemini 3.1 Pro corrompem, em média, 25% do conteúdo processado.
- A corrupção ocorre por falhas repentinas que descartam ou distorcem partes críticas do texto original.
- O uso de ferramentas genéricas de agentes reduziu a precisão em comparação ao processamento direto.
- Especialistas recomendam revisão humana incremental para evitar o acúmulo de erros em fluxos de trabalho longos.
Um estudo recente da Microsoft revelou falhas significativas na confiabilidade de modelos de linguagem de grande escala ao executarem fluxos de trabalho autônomos. Utilizando o novo benchmark DELEGATE-52, pesquisadores constataram que modelos de fronteira, incluindo GPT 5.4, Claude 4.6 Opus e Gemini 3.1 Pro, corrompem cerca de 25% do conteúdo de documentos ao final de processos de várias etapas. O problema é agravado pela natureza sutil dos erros, que frequentemente passam despercebidos por supervisores humanos durante a verificação final.
A pesquisa indica que a automação de tarefas de conhecimento complexas exige cautela, sugerindo que ferramentas genéricas de agentes podem ser menos eficazes do que soluções específicas por domínio. Devido ao caráter cumulativo das falhas, o estudo alerta para a necessidade de implementar revisões humanas incrementais ao longo de todo o fluxo de trabalho, em vez de confiar apenas em uma checagem ao final da tarefa.
Tópicos relacionados
Comentários
Carregando comentários...
