Modelos de IA corrompem 25% de documentos em f...

Um estudo recente da Microsoft revelou falhas significativas na confiabilidade de modelos de linguagem de grande escala ao executarem fluxos de trabalho autônomos. Utilizando o novo benchmark DELEGATE-52, pesquisadores constataram que modelos de fronteira, incluindo GPT 5.4, Claude 4.6 Opus e Gemini 3.1 Pro, corrompem cerca de 25% do conteúdo de documentos ao final de processos de várias etapas. O problema é agravado pela natureza sutil dos erros, que frequentemente passam despercebidos por supervisores humanos durante a verificação final.

A pesquisa indica que a automação de tarefas de conhecimento complexas exige cautela, sugerindo que ferramentas genéricas de agentes podem ser menos eficazes do que soluções específicas por domínio. Devido ao caráter cumulativo das falhas, o estudo alerta para a necessidade de implementar revisões humanas incrementais ao longo de todo o fluxo de trabalho, em vez de confiar apenas em uma checagem ao final da tarefa.

Modelos de IA corrompem 25% de documentos em fluxos de trabalho

Pontos principais

Tópicos relacionados

Fontes

Frontier AI models don't just delete document content — they rewrite it, and the errors are nearly impossible to catch

Leia também

Falha de segurança permite envenenar agentes de IA via repositórios

IA padroniza linguagem e reduz diversidade de escrita e fala

Estudo com 9 mil testes identifica 'capitulação cognitiva' em usuários de IA

Microsoft lança Phi-4-reasoning-vision-15B, modelo open-weight que compete com sistemas 10x maiores

Modelos de IA de código aberto são vulneráveis a uso criminoso, revela estudo

Comentários