Debugging sistemático para agentes de IA: apresentando o framework AgentRx
Microsoft Research: Framework open-source para localizar falhas críticas em agentes com +23,6% de precisão e benchmark de 115 trajetórias.
|
13/03 às 09:00
Pontos principais
- Sintetiza restrições executáveis de schemas de ferramentas e políticas de domínio
- +23,6% em localização de falhas sobre baselines de prompting
- Benchmark com 115 trajetórias de falha em três domínios
- Framework, código e dataset são open-source
Mencionado nesta matéria
Organizações
Microsoft Research
