RESEARCH28

Self-Distilled Policy Gradient

arXiv CS.LG·4 juin 2026

Cet article présente le Self-Distilled Policy Gradient (SDPG), un nouveau cadre qui améliore l'apprentissage par renforcement à récompense clairsemée grâce à l'autodistillation on-policy. Le SDPG intègre des avantages de vérificateur relatifs au groupe, une autodistillation exacte du vocabulaire complet et une régularisation KL, démontrant une stabilité et des performances améliorées par rapport aux références existantes.

language models deep learning reinforcement learning Policy Gradient Self-Distillation

Lire l'original ↗