Como o RecursiveMAS acelera a inferência multiagente em 2,4x e reduz o uso de tokens em 75%
Pesquisadores desenvolveram o RecursiveMAS, uma estrutura que permite que agentes de IA colaborem via espaço latente em vez de texto, aumentando a velocidade de inferência e reduzindo drasticamente o consumo de tokens.
|
15/05 às 18:04
Pontos principais
- O RecursiveMAS substitui a comunicação baseada em texto entre agentes por transmissões em espaço latente, eliminando gargalos de latência.
- A arquitetura utiliza um componente chamado RecursiveLink para transmitir estados latentes entre diferentes modelos sem a necessidade de treinar todos os parâmetros.
- Testes demonstram um aumento de 2,4x na velocidade de inferência e uma redução de até 75% no uso de tokens em comparação com métodos baseados em texto.
- O framework melhora a precisão em tarefas complexas como geração de código e raciocínio médico.
- A solução é altamente escalável e eficiente, exigindo menos memória GPU e custos de treinamento significativamente menores que o ajuste fino tradicional.
Mencionado nesta matéria
Organizações
University of Illinois Urbana-ChampaignStanford University

