Nova técnica RLSD otimiza modelos de raciocíni...

Pesquisadores da JD.com e de instituições acadêmicas desenvolveram uma nova técnica chamada Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD), que permite a construção de modelos de raciocínio personalizados com uma fração dos recursos computacionais tradicionalmente necessários. O RLSD combina o rastreamento de desempenho confiável do aprendizado por reforço com o feedback granular da autodistilação, superando algoritmos clássicos de destilação e aprendizado por reforço em testes práticos.

Esta inovação aborda desafios como o feedback esparso e o alto custo computacional de métodos anteriores, além de evitar o vazamento de informações. A técnica desacopla a direção da atualização (determinada por feedback verificável) da magnitude da atualização (determinada por um auto-professor). Testes com o modelo Qwen3-VL-8B demonstraram que o RLSD alcançou maior precisão e velocidade de convergência em benchmarks de raciocínio visual, oferecendo às empresas a capacidade de integrar a técnica em seus fluxos de trabalho usando dados proprietários sem a necessidade de um professor externo ou de enviar dados para fora da rede.

O Futuro da Informação

Nova técnica RLSD otimiza modelos de raciocínio com menos recursos

Pontos principais

Tópicos relacionados

Fontes

How to build custom reasoning agents with a fraction of the compute

Leia também

Novo framework de IA otimiza dados e algoritmos, superando humanos

DeepMind lança Decoupled DiLoCo para treinamento de IA distribuída

OpenAI lança IH-Challenge para melhorar segurança de LLMs

Vale do Silício investe pesado em IAs que se autoaprimoram, gerando debate sobre bolha

Pioneiro da IA alerta para beco sem saída do "efeito manada" em LLMs e destaca avanço chinês