RESEARCH27
Reducing Credit Assignment Variance via Counterfactual Reasoning Paths
arXiv CS.LG·19 mai 2026
Cette recherche aborde le défi de la mauvaise attribution de crédit dans l'apprentissage par renforcement pour le raisonnement en plusieurs étapes avec les grands modèles de langage, causée par des récompenses terminales éparses entraînant une variance de gradient élevée et une formation instable. Elle propose un cadre d'attribution de crédit basé sur la comparaison contrefactuelle et l'optimisation implicite de la politique de comportement (IBPO) pour créer des signaux d'apprentissage sensibles aux étapes, améliorant considérablement la stabilité et les performances de l'entraînement.
Lire l'original ↗