RESEARCHarXiv CS.LG·16/04/2026
Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation
Este artigo apresenta uma condição necessária para o design de algoritmos de aprendizagem intragrupal em Reinforcement Learning, exigindo que os objetivos mantenham a intercambialidade de gradientes para evitar desvios irrelevantes. Ele propõe transformações mínimas para restaurar essa estrutura de cancelamento, o que estabiliza o treinamento e melhora a eficiência da amostra.
29