Pesquisa revela que treinar uma camada de LLM basta para reforço

Estudo mostra que o ajuste de apenas uma camada intermediária em transformers pode igualar ou superar o desempenho de modelos treinados totalmente.

03/07 às 17:45

Pontos principais

O estudo analisou sete modelos das famílias Qwen3 e Qwen2.5 utilizando algoritmos de RL como GRPO, GiGPO e Dr. GRPO.
Pesquisadores introduziram a métrica 'contribuição por camada' para medir o impacto do treinamento isolado em relação ao full-parameter.
Camadas de maior impacto concentram-se consistentemente na parte intermediária da arquitetura transformer.
O treinamento de uma única camada pode recuperar até 114% dos ganhos obtidos pelo treinamento de todos os parâmetros.
Camadas próximas ao início e ao fim da rede demonstraram contribuições substancialmente menores para o aprendizado.
A descoberta sugere novas estratégias de treinamento mais eficientes, priorizando camadas de alta contribuição em vez de todo o modelo.

Um novo estudo publicado em julho de 2026 desafia a prática convencional de atualizar todos os parâmetros de um Large Language Model (LLM) durante o pós-treinamento por reforço (RL). A pesquisa demonstra que a adaptação necessária para melhorar o desempenho em tarefas como raciocínio matemático, geração de código e tomada de decisão por agentes é altamente concentrada em um subconjunto específico de camadas, e não distribuída uniformemente por toda a rede.

Ao isolar camadas individuais, os autores observaram que o treinamento de uma única camada intermediária é suficiente para replicar ou até superar os resultados de métodos que ajustam o modelo completo. Essa estrutura de 'contribuição por camada' mostrou-se estável em diferentes famílias de modelos e algoritmos, indicando uma propriedade estrutural fundamental dos transformers que pode otimizar significativamente o custo computacional e a eficiência do treinamento de IA.

Tópicos relacionados

Inteligência Artificial

Fontes