Modelos de IA de fronteira não apenas deletam conteúdo de documentos — eles o reescrevem, e os erros são quase impossíveis de detectar

Um novo estudo da Microsoft revela que modelos de linguagem de grande escala corrompem documentos ao realizar tarefas delegadas, introduzindo erros sutis que são difíceis de identificar por supervisores humanos.

13/05 às 17:10

Pontos principais

Pesquisadores da Microsoft desenvolveram o benchmark DELEGATE-52 para avaliar a confiabilidade de modelos de IA em fluxos de trabalho autônomos de várias etapas.
Modelos de fronteira, como Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4, corrompem em média 25% do conteúdo dos documentos ao final de fluxos de trabalho longos.
A corrupção ocorre principalmente através de falhas críticas repentinas, onde o modelo descarta ou distorce grandes partes do texto.
O uso de ferramentas genéricas de agentes piorou o desempenho em comparação com o processamento direto, sugerindo a necessidade de ferramentas específicas por domínio.
O estudo alerta que a automação de tarefas de conhecimento exige revisão humana incremental, em vez de apenas uma verificação final, devido à natureza cumulativa dos erros.

Mencionado nesta matéria

Pessoas

Philippe Laban (Pesquisador Sênior na Microsoft Research)

Organizações

MicrosoftOpenAIAnthropicGoogleMistralxAIMoonshotVentureBeat

Faz parte de

Modelos de IA corrompem 25% de documentos em fluxos de trabalho

13 mai, 17:35 • Daily Journal

Fonte

Ver matéria original

Venturebeat • 13 mai, 17:10