Como a Sakana treinou um modelo de 7B para orquestrar GPT-5, Claude Sonnet 4 e Gemini 2.5 Pro
A Sakana AI desenvolveu o "RL Conductor", um pequeno modelo de linguagem treinado por aprendizado por reforço para orquestrar automaticamente diversos LLMs, superando modelos individuais e frameworks manuais em benchmarks de raciocínio e codificação.
|
07/05 às 18:23
Pontos principais
- A Sakana AI introduziu o "RL Conductor", um modelo de linguagem pequeno (7B) treinado via aprendizado por reforço para orquestrar LLMs.
- O Conductor analisa dinamicamente entradas, distribui tarefas entre LLMs e coordena agentes para resolver problemas complexos.
- Ele alcança resultados de ponta em benchmarks de raciocínio e codificação, superando modelos como GPT-5 e Claude Sonnet 4, e pipelines multiagentes caros.
- O sistema aprende estratégias de orquestração através de tentativa e erro, sem design humano, otimizando o uso de diferentes modelos para tarefas específicas.
- O Conductor é a base do Fugu, o serviço comercial de orquestração multiagente da Sakana AI, que está em fase beta.
- A tecnologia Fugu visa resolver as limitações de generalização de pipelines codificados manualmente em setores como finanças e defesa.
- O Conductor demonstrou eficiência notável, utilizando menos tokens e etapas em comparação com modelos de linha de base, enquanto atinge alta precisão.
Mencionado nesta matéria
Pessoas
Yujin Tang (co-autor do artigo)
Organizações
Sakana AIVentureBeatLangChainOpenAI

