Credit assignment

2 items

RESEARCHarXiv CS.CL·14d ago

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO is a novel critic-free policy optimization framework addressing the credit-assignment challenge in interactive language agents. It converts retrieval interactions into localized learning signals, evaluating executable actions and propagating credit to latent reasoning steps.

Policy optimization reinforcement learning Retrieval systems AI agents

RESEARCHarXiv CS.LG·22d ago

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

This research addresses the challenge of poor credit assignment in reinforcement learning for multi-step reasoning with large language models, caused by sparse terminal rewards leading to high gradient variance and unstable training. It proposes a counterfactual comparison-based framework and Implicit Behavior Policy Optimization (IBPO) to create step-sensitive learning signals, significantly improving training stability and performance.

reinforcement learning AI training Machine learning research large language models