RESEARCH27
RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents
arXiv CS.CL·27. Mai 2026
RICE-PO ist ein neuer kritikfreier Rahmen zur Politikoptimierung, der die Herausforderung der Kreditzuweisung in interaktiven Sprachagenten löst. Er wandelt Abrufinteraktionen in lokalisierte Lernsignale um, indem er ausführbare Aktionen bewertet und Kredite an latente Denkprozesse weiterleitet.
Original lesen ↗