RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents
RICE-PO ist ein neuer kritikfreier Rahmen zur Politikoptimierung, der die Herausforderung der Kreditzuweisung in interaktiven Sprachagenten löst. Er wandelt Abrufinteraktionen in lokalisierte Lernsignale um, indem er ausführbare Aktionen bewertet und Kredite an latente Denkprozesse weiterleitet.