RESEARCH29
Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation
arXiv CS.LG·16 de abril de 2026
Este artigo apresenta uma condição necessária para o design de algoritmos de aprendizagem intragrupal em Reinforcement Learning, exigindo que os objetivos mantenham a intercambialidade de gradientes para evitar desvios irrelevantes. Ele propõe transformações mínimas para restaurar essa estrutura de cancelamento, o que estabiliza o treinamento e melhora a eficiência da amostra.
Ler original ↗