RESEARCH27

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

arXiv CS.CL·27 de mayo de 2026

RICE-PO es un nuevo marco de optimización de políticas sin crítico que aborda el desafío de asignación de crédito en agentes de lenguaje interactivos. Convierte las interacciones de recuperación en señales de aprendizaje localizadas, evaluando acciones ejecutables y propagando crédito a pasos de razonamiento latentes.

Policy optimization reinforcement learning Retrieval systems AI agents Credit assignment

Leer original ↗