heapsort
RESEARCH27

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

arXiv CS.CL·27 mai 2026

RICE-PO est un nouveau cadre d'optimisation de politique sans critique qui s'attaque au défi d'attribution de crédit dans les agents linguistiques interactifs. Il convertit les interactions de récupération en signaux d'apprentissage localisés, évaluant les actions exécutables et propageant le crédit aux étapes de raisonnement latentes.

Lire l'original