RESEARCH28

Self-Distilled Policy Gradient

arXiv CS.LG·4 de junio de 2026

Este artículo introduce el Self-Distilled Policy Gradient (SDPG), un marco novedoso que mejora el aprendizaje por refuerzo de recompensa dispersa mediante la autodestilación on-policy. SDPG integra ventajas de verificador relativas al grupo, autodestilación exacta de vocabulario completo y regularización KL, demostrando una estabilidad y rendimiento superiores a los métodos base.

language models deep learning reinforcement learning Policy Gradient Self-Distillation

Leer original ↗