RESEARCH29

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

arXiv CS.LG·16 de abril de 2026

Este artigo apresenta uma condição necessária para o design de algoritmos de aprendizagem intragrupal em Reinforcement Learning, exigindo que os objetivos mantenham a intercambialidade de gradientes para evitar desvios irrelevantes. Ele propõe transformações mínimas para restaurar essa estrutura de cancelamento, o que estabiliza o treinamento e melhora a eficiência da amostra.

reinforcement learning large language models gradient dynamics model optimization

Ler original ↗