Pesquisadores da JD.com e instituições acadêmicas desenvolveram o RLSD, uma técnica que permite construir modelos de raciocínio personalizados com menor custo computacional e maior eficiência.
Pesquisadores da JD.com e de instituições acadêmicas desenvolveram uma nova técnica chamada Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD), que permite a construção de modelos de raciocínio personalizados com uma fração dos recursos computacionais tradicionalmente necessários. O RLSD combina o rastreamento de desempenho confiável do aprendizado por reforço com o feedback granular da autodistilação, superando algoritmos clássicos de destilação e aprendizado por reforço em testes práticos.
Esta inovação aborda desafios como o feedback esparso e o alto custo computacional de métodos anteriores, além de evitar o vazamento de informações. A técnica desacopla a direção da atualização (determinada por feedback verificável) da magnitude da atualização (determinada por um auto-professor). Testes com o modelo Qwen3-VL-8B demonstraram que o RLSD alcançou maior precisão e velocidade de convergência em benchmarks de raciocínio visual, oferecendo às empresas a capacidade de integrar a técnica em seus fluxos de trabalho usando dados proprietários sem a necessidade de um professor externo ou de enviar dados para fora da rede.
30 jun, 13:39
12 jun, 18:32
28 mai, 11:37
21 mai, 16:06
7 mai, 18:38
Carregando comentários...