A Sakana AI criou o "RL Conductor", um modelo de linguagem de 7B treinado por aprendizado por reforço para orquestrar LLMs, superando modelos individuais em benchmarks.

A Sakana AI anunciou o desenvolvimento do "RL Conductor", um modelo de linguagem de 7 bilhões de parâmetros treinado por aprendizado por reforço para orquestrar múltiplos Large Language Models (LLMs). O Conductor é capaz de analisar dinamicamente as entradas, distribuir tarefas entre diferentes LLMs e coordenar agentes para solucionar problemas complexos, aprendendo estratégias de orquestração por tentativa e erro, sem a necessidade de design humano. Este sistema demonstrou superar modelos individuais como GPT-5 e Claude Sonnet 4 em benchmarks de raciocínio e codificação.
O "RL Conductor" é a tecnologia central por trás do Fugu, o serviço comercial de orquestração multiagente da Sakana AI, que está em fase beta. A empresa afirma que a tecnologia Fugu visa resolver as limitações de generalização de pipelines codificados manualmente, especialmente em setores como finanças e defesa, ao otimizar o uso de diferentes modelos para tarefas específicas com notável eficiência e precisão.
11 mai, 20:35
7 mai, 17:34
28 abr, 21:05
17 mar, 09:00
10 mar, 16:03
Carregando comentários...