RESEARCH29
Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation
arXiv CS.LG·16 avril 2026
Cet article présente une condition nécessaire pour la conception d'algorithmes d'apprentissage intra-groupe en Reinforcement Learning, exigeant que les objectifs maintiennent l'échangeabilité des gradients pour prévenir la dérive. Il propose des transformations minimales pour restaurer cette structure d'annulation, ce qui stabilise l'entraînement et améliore l'efficacité des échantillons.
Lire l'original ↗