Como o RecursiveMAS acelera a inferência multiagente em 2,4x e reduz o uso de tokens em 75%

Pesquisadores desenvolveram o RecursiveMAS, uma estrutura que permite que agentes de IA colaborem via espaço latente em vez de texto, aumentando a velocidade de inferência e reduzindo drasticamente o consumo de tokens.

15/05 às 18:04

Pontos principais

O RecursiveMAS substitui a comunicação baseada em texto entre agentes por transmissões em espaço latente, eliminando gargalos de latência.
A arquitetura utiliza um componente chamado RecursiveLink para transmitir estados latentes entre diferentes modelos sem a necessidade de treinar todos os parâmetros.
Testes demonstram um aumento de 2,4x na velocidade de inferência e uma redução de até 75% no uso de tokens em comparação com métodos baseados em texto.
O framework melhora a precisão em tarefas complexas como geração de código e raciocínio médico.
A solução é altamente escalável e eficiente, exigindo menos memória GPU e custos de treinamento significativamente menores que o ajuste fino tradicional.

Mencionado nesta matéria

Organizações

University of Illinois Urbana-ChampaignStanford University

Faz parte de

Novo framework RecursiveMAS acelera inferência de agentes de IA

15 mai, 18:35 • Daily Journal

Fonte

Ver matéria original

Venturebeat • 15 mai, 18:04