RESEARCHarXiv CS.LG·16/4/2026
Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation
Este artículo presenta una condición necesaria para el diseño de algoritmos de aprendizaje intragrupal en Reinforcement Learning, exigiendo que los objetivos mantengan la intercambiabilidad de gradientes para evitar derivas irrelevantes. Propone transformaciones mínimas para restaurar esta estructura de cancelación, lo que estabiliza el entrenamiento y mejora la eficiencia de la muestra.
29