Framework open-source localiza o 'passo crítico de falha' em trajetórias de agentes com +23,6% de precisão sobre baselines.
A Microsoft Research publicou o AgentRx, um framework automatizado de debugging que identifica o 'passo crítico de falha' em trajetórias de execução de agentes de IA, sintetizando restrições executáveis a partir de schemas de ferramentas e políticas de domínio.
O framework melhorou a precisão de localização de falhas em 23,6% e a atribuição de causa raiz em 22,9% comparado a baselines. A equipe também liberou um benchmark com 115 trajetórias de falha anotadas manualmente e uma taxonomia de nove categorias de falhas.
12 mar, 09:00
6 mar, 09:00
6 mar, 09:00
5 mar, 09:00
1 mar, 13:19