RESEARCH29

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

arXiv CS.LG·16 de abril de 2026

Este artículo presenta una condición necesaria para el diseño de algoritmos de aprendizaje intragrupal en Reinforcement Learning, exigiendo que los objetivos mantengan la intercambiabilidad de gradientes para evitar derivas irrelevantes. Propone transformaciones mínimas para restaurar esta estructura de cancelación, lo que estabiliza el entrenamiento y mejora la eficiencia de la muestra.

reinforcement learning large language models gradient dynamics model optimization

Leer original ↗