← heapsort-ai

Credit assignment

2 items

RESEARCHarXiv CS.CL·il y a 14j

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO est un nouveau cadre d'optimisation de politique sans critique qui s'attaque au défi d'attribution de crédit dans les agents linguistiques interactifs. Il convertit les interactions de récupération en signaux d'apprentissage localisés, évaluant les actions exécutables et propageant le crédit aux étapes de raisonnement latentes.

27
RESEARCHarXiv CS.LG·il y a 22j

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Cette recherche aborde le défi de la mauvaise attribution de crédit dans l'apprentissage par renforcement pour le raisonnement en plusieurs étapes avec les grands modèles de langage, causée par des récompenses terminales éparses entraînant une variance de gradient élevée et une formation instable. Elle propose un cadre d'attribution de crédit basé sur la comparaison contrefactuelle et l'optimisation implicite de la politique de comportement (IBPO) pour créer des signaux d'apprentissage sensibles aux étapes, améliorant considérablement la stabilité et les performances de l'entraînement.

27