Daily Journal
Daily Journal

Como a Sakana treinou um modelo de 7B para orquestrar GPT-5, Claude Sonnet 4 e Gemini 2.5 Pro

A Sakana AI desenvolveu o "RL Conductor", um pequeno modelo de linguagem treinado por aprendizado por reforço para orquestrar automaticamente diversos LLMs, superando modelos individuais e frameworks manuais em benchmarks de raciocínio e codificação.

Daily Journal
|
07/05 às 18:23

Pontos principais

  • A Sakana AI introduziu o "RL Conductor", um modelo de linguagem pequeno (7B) treinado via aprendizado por reforço para orquestrar LLMs.
  • O Conductor analisa dinamicamente entradas, distribui tarefas entre LLMs e coordena agentes para resolver problemas complexos.
  • Ele alcança resultados de ponta em benchmarks de raciocínio e codificação, superando modelos como GPT-5 e Claude Sonnet 4, e pipelines multiagentes caros.
  • O sistema aprende estratégias de orquestração através de tentativa e erro, sem design humano, otimizando o uso de diferentes modelos para tarefas específicas.
  • O Conductor é a base do Fugu, o serviço comercial de orquestração multiagente da Sakana AI, que está em fase beta.
  • A tecnologia Fugu visa resolver as limitações de generalização de pipelines codificados manualmente em setores como finanças e defesa.
  • O Conductor demonstrou eficiência notável, utilizando menos tokens e etapas em comparação com modelos de linha de base, enquanto atinge alta precisão.

Mencionado nesta matéria

Pessoas

Yujin Tang (co-autor do artigo)

Organizações

Sakana AIVentureBeatLangChainOpenAI