← heapsort-ai

gradient dynamics

1 items

RESEARCHarXiv CS.LG·16/04/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Cet article présente une condition nécessaire pour la conception d'algorithmes d'apprentissage intra-groupe en Reinforcement Learning, exigeant que les objectifs maintiennent l'échangeabilité des gradients pour prévenir la dérive. Il propose des transformations minimales pour restaurer cette structure d'annulation, ce qui stabilise l'entraînement et améliore l'efficacité des échantillons.

29