Como a Sakana treinou um modelo de 7B para orquestrar GPT-5, Claude Sonnet 4 e Gemini 2.5 Pro

A Sakana AI desenvolveu o "RL Conductor", um pequeno modelo de linguagem treinado por aprendizado por reforço para orquestrar automaticamente diversos LLMs, superando modelos individuais e frameworks manuais em benchmarks de raciocínio e codificação.

07/05 às 18:23

Pontos principais

A Sakana AI introduziu o "RL Conductor", um modelo de linguagem pequeno (7B) treinado via aprendizado por reforço para orquestrar LLMs.
O Conductor analisa dinamicamente entradas, distribui tarefas entre LLMs e coordena agentes para resolver problemas complexos.
Ele alcança resultados de ponta em benchmarks de raciocínio e codificação, superando modelos como GPT-5 e Claude Sonnet 4, e pipelines multiagentes caros.
O sistema aprende estratégias de orquestração através de tentativa e erro, sem design humano, otimizando o uso de diferentes modelos para tarefas específicas.
O Conductor é a base do Fugu, o serviço comercial de orquestração multiagente da Sakana AI, que está em fase beta.
A tecnologia Fugu visa resolver as limitações de generalização de pipelines codificados manualmente em setores como finanças e defesa.
O Conductor demonstrou eficiência notável, utilizando menos tokens e etapas em comparação com modelos de linha de base, enquanto atinge alta precisão.

Mencionado nesta matéria

Pessoas

Yujin Tang (co-autor do artigo)

Organizações

Sakana AIVentureBeatLangChainOpenAI

Faz parte de

Sakana AI desenvolve modelo para orquestrar LLMs como GPT-5 e Claude

7 mai, 18:38 • Daily Journal

Fonte

Ver matéria original

Venturebeat • 7 mai, 18:23