RESEARCH27

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

arXiv CS.CL·27. Mai 2026

RICE-PO ist ein neuer kritikfreier Rahmen zur Politikoptimierung, der die Herausforderung der Kreditzuweisung in interaktiven Sprachagenten löst. Er wandelt Abrufinteraktionen in lokalisierte Lernsignale um, indem er ausführbare Aktionen bewertet und Kredite an latente Denkprozesse weiterleitet.

Policy optimization reinforcement learning Retrieval systems AI agents Credit assignment

Original lesen ↗