Como construir agentes de raciocínio personalizados com uma fração do poder computacional
Pesquisadores da JD.com e instituições acadêmicas desenvolveram uma nova técnica, Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD), que permite construir modelos de raciocínio personalizados com menos recursos computacionais, superando métodos tradicionais.
|
28/04 às 20:55
Pontos principais
- A técnica RLSD (Reinforcement Learning with Verifiable Rewards with Self-Distillation) permite construir modelos de raciocínio personalizados com menos recursos computacionais.
- O RLSD combina o rastreamento de desempenho confiável do aprendizado por reforço com o feedback granular da autodistilação.
- Modelos treinados com RLSD superam algoritmos clássicos de destilação e aprendizado por reforço em experimentos.
- O método aborda problemas de feedback esparso no RLVR e o alto custo computacional do OPD, além de evitar o vazamento de informação do OPSD.
- RLSD desacopla a direção da atualização (determinada por feedback verificável) da magnitude da atualização (determinada por um auto-professor).
- A técnica foi testada com o modelo Qwen3-VL-8B e obteve maior precisão e velocidade de convergência em benchmarks de raciocínio visual.
- Empresas podem integrar o RLSD em seus fluxos de trabalho usando dados proprietários como contexto privilegiado, sem a necessidade de um professor externo ou de enviar dados para fora da rede.
Mencionado nesta matéria
Pessoas
Chenxu Yang (co-autor do artigo)
Organizações
JD.comVentureBeat

