Daily Journal

O Futuro da Informação

Debugging sistemático para agentes de IA: apresentando o framework AgentRx

Microsoft Research: Framework open-source para localizar falhas críticas em agentes com +23,6% de precisão e benchmark de 115 trajetórias.

Daily Journal
|
13/03 às 09:00

Pontos principais

  • Sintetiza restrições executáveis de schemas de ferramentas e políticas de domínio
  • +23,6% em localização de falhas sobre baselines de prompting
  • Benchmark com 115 trajetórias de falha em três domínios
  • Framework, código e dataset são open-source

Mencionado nesta matéria

Organizações

Microsoft Research