Daily Journal

O Futuro da Informação

Daily Journal

Como construir agentes de raciocínio personalizados com uma fração do poder computacional

Pesquisadores da JD.com e instituições acadêmicas desenvolveram uma nova técnica, Reinforcement Learning with Verifiable Rewards with Self-Distillation (RLSD), que permite construir modelos de raciocínio personalizados com menos recursos computacionais, superando métodos tradicionais.

Daily Journal
|
28/04 às 20:55

Pontos principais

  • A técnica RLSD (Reinforcement Learning with Verifiable Rewards with Self-Distillation) permite construir modelos de raciocínio personalizados com menos recursos computacionais.
  • O RLSD combina o rastreamento de desempenho confiável do aprendizado por reforço com o feedback granular da autodistilação.
  • Modelos treinados com RLSD superam algoritmos clássicos de destilação e aprendizado por reforço em experimentos.
  • O método aborda problemas de feedback esparso no RLVR e o alto custo computacional do OPD, além de evitar o vazamento de informação do OPSD.
  • RLSD desacopla a direção da atualização (determinada por feedback verificável) da magnitude da atualização (determinada por um auto-professor).
  • A técnica foi testada com o modelo Qwen3-VL-8B e obteve maior precisão e velocidade de convergência em benchmarks de raciocínio visual.
  • Empresas podem integrar o RLSD em seus fluxos de trabalho usando dados proprietários como contexto privilegiado, sem a necessidade de um professor externo ou de enviar dados para fora da rede.

Mencionado nesta matéria

Pessoas

Chenxu Yang (co-autor do artigo)

Organizações

JD.comVentureBeat