Estudo da Microsoft aponta que modelos de fronteira introduzem erros sutis e difíceis de detectar ao realizar tarefas autônomas de várias etapas.

Um estudo recente da Microsoft revelou falhas significativas na confiabilidade de modelos de linguagem de grande escala ao executarem fluxos de trabalho autônomos. Utilizando o novo benchmark DELEGATE-52, pesquisadores constataram que modelos de fronteira, incluindo GPT 5.4, Claude 4.6 Opus e Gemini 3.1 Pro, corrompem cerca de 25% do conteúdo de documentos ao final de processos de várias etapas. O problema é agravado pela natureza sutil dos erros, que frequentemente passam despercebidos por supervisores humanos durante a verificação final.
A pesquisa indica que a automação de tarefas de conhecimento complexas exige cautela, sugerindo que ferramentas genéricas de agentes podem ser menos eficazes do que soluções específicas por domínio. Devido ao caráter cumulativo das falhas, o estudo alerta para a necessidade de implementar revisões humanas incrementais ao longo de todo o fluxo de trabalho, em vez de confiar apenas em uma checagem ao final da tarefa.
5 mai, 20:09
2 mai, 19:01
5 abr, 09:00
5 mar, 09:00
29 jan, 14:01
Carregando comentários...