RESEARCHarXiv CS.LG·5d atrás
Self-Distilled Policy Gradient
Este artigo apresenta o Self-Distilled Policy Gradient (SDPG), uma estrutura inovadora que aprimora o aprendizado por reforço com recompensa esparsa através da autodestilação on-policy. O SDPG combina vantagens do verificador, autodestilação exata de vocabulário completo e regularização KL, mostrando melhorias na estabilidade e desempenho em relação às abordagens existentes.
28