Policy Gradient — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·5d atrás

Self-Distilled Policy Gradient

Este artigo apresenta o Self-Distilled Policy Gradient (SDPG), uma estrutura inovadora que aprimora o aprendizado por reforço com recompensa esparsa através da autodestilação on-policy. O SDPG combina vantagens do verificador, autodestilação exata de vocabulário completo e regularização KL, mostrando melhorias na estabilidade e desempenho em relação às abordagens existentes.

language models deep learning reinforcement learning Policy Gradient