RESEARCHarXiv CS.LG·4/16/2026
Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation
Diese Arbeit präsentiert eine notwendige Bedingung für das Design von Intragruppen-Lernalgorithmen im Reinforcement Learning, die erfordert, dass Zielsetzungen die Gradienten-Austauschbarkeit über Token-Updates hinweg aufrechterhalten, um belohnungsirrelevanten Drift zu verhindern. Sie schlägt minimale Transformationen vor, um diese Aufhebungsstruktur wiederherzustellen, was das Training stabilisiert und die Stichprobeneffizienz verbessert.
29