Pesquisadores da JD.com e instituições acadêmicas desenvolveram o RLSD, uma técnica que permite construir modelos de raciocínio personalizados com menor custo computacional e maior eficiência.

Pesquisadores da JD.com e de instituições acadêmicas desenvolveram uma nova técnica chamada Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD), que permite a construção de modelos de raciocínio personalizados com uma fração dos recursos computacionais tradicionalmente necessários. O RLSD combina o rastreamento de desempenho confiável do aprendizado por reforço com o feedback granular da autodistilação, superando algoritmos clássicos de destilação e aprendizado por reforço em testes práticos.
Esta inovação aborda desafios como o feedback esparso e o alto custo computacional de métodos anteriores, além de evitar o vazamento de informações. A técnica desacopla a direção da atualização (determinada por feedback verificável) da magnitude da atualização (determinada por um auto-professor). Testes com o modelo Qwen3-VL-8B demonstraram que o RLSD alcançou maior precisão e velocidade de convergência em benchmarks de raciocínio visual, oferecendo às empresas a capacidade de integrar a técnica em seus fluxos de trabalho usando dados proprietários sem a necessidade de um professor externo ou de enviar dados para fora da rede.
28 abr, 12:13
23 abr, 12:02
10 mar, 16:03
3 fev, 06:01
27 jan, 22:01