Daily Journal
Daily Journal

Como o RecursiveMAS acelera a inferência multiagente em 2,4x e reduz o uso de tokens em 75%

Pesquisadores desenvolveram o RecursiveMAS, uma estrutura que permite que agentes de IA colaborem via espaço latente em vez de texto, aumentando a velocidade de inferência e reduzindo drasticamente o consumo de tokens.

Daily Journal
|
15/05 às 18:04

Pontos principais

  • O RecursiveMAS substitui a comunicação baseada em texto entre agentes por transmissões em espaço latente, eliminando gargalos de latência.
  • A arquitetura utiliza um componente chamado RecursiveLink para transmitir estados latentes entre diferentes modelos sem a necessidade de treinar todos os parâmetros.
  • Testes demonstram um aumento de 2,4x na velocidade de inferência e uma redução de até 75% no uso de tokens em comparação com métodos baseados em texto.
  • O framework melhora a precisão em tarefas complexas como geração de código e raciocínio médico.
  • A solução é altamente escalável e eficiente, exigindo menos memória GPU e custos de treinamento significativamente menores que o ajuste fino tradicional.

Mencionado nesta matéria

Organizações

University of Illinois Urbana-ChampaignStanford University