Como construir agentes de raciocínio personalizados com uma fração do poder computacional

Pesquisadores da JD.com e instituições acadêmicas desenvolveram uma nova técnica, Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD), que permite construir modelos de raciocínio personalizados com menos recursos computacionais, superando métodos tradicionais.

28/04 às 20:55

Pontos principais

A técnica RLSD (Reinforcement Learning with Verifiable Rewards with Self-Distillation) permite construir modelos de raciocínio personalizados com menos recursos computacionais.
O RLSD combina o rastreamento de desempenho confiável do aprendizado por reforço com o feedback granular da autodistilação.
Modelos treinados com RLSD superam algoritmos clássicos de destilação e aprendizado por reforço em experimentos.
O método aborda problemas de feedback esparso no RLVR e o alto custo computacional do OPD, além de evitar o vazamento de informação do OPSD.
RLSD desacopla a direção da atualização (determinada por feedback verificável) da magnitude da atualização (determinada por um auto-professor).
A técnica foi testada com o modelo Qwen3-VL-8B e obteve maior precisão e velocidade de convergência em benchmarks de raciocínio visual.
Empresas podem integrar o RLSD em seus fluxos de trabalho usando dados proprietários como contexto privilegiado, sem a necessidade de um professor externo ou de enviar dados para fora da rede.

Mencionado nesta matéria

Pessoas

Chenxu Yang (co-autor do artigo)

Organizações

JD.comVentureBeat

Faz parte de

Nova técnica RLSD otimiza modelos de raciocínio com menos recursos

28 abr, 21:05 • Daily Journal

Fonte

Ver matéria original

Venturebeat • 28 abr, 20:55