RESEARCH28

Self-Distilled Policy Gradient

arXiv CS.LG·4 de junho de 2026

Este artigo apresenta o Self-Distilled Policy Gradient (SDPG), uma estrutura inovadora que aprimora o aprendizado por reforço com recompensa esparsa através da autodestilação on-policy. O SDPG combina vantagens do verificador, autodestilação exata de vocabulário completo e regularização KL, mostrando melhorias na estabilidade e desempenho em relação às abordagens existentes.

language models deep learning reinforcement learning Policy Gradient Self-Distillation

Ler original ↗