RESEARCH28
Self-Distilled Policy Gradient
arXiv CS.LG·4. Juni 2026
Dieses Papier stellt den Self-Distilled Policy Gradient (SDPG) vor, ein neuartiges Framework, das spärlich belohntes Reinforcement Learning durch On-Policy-Selbst-Destillation verbessert. SDPG kombiniert gruppenrelative Verifizierervorteile, exakte vollständige Vokabular-On-Policy-Selbst-Destillation und Referenz-Policy-KL-Regularisierung und zeigt eine verbesserte Stabilität und Leistung gegenüber bestehenden Baselines.
Original lesen ↗