RESEARCH27
RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents
arXiv CS.CL·27 de maio de 2026
RICE-PO é uma nova estrutura de otimização de políticas que aborda o desafio de atribuição de crédito em agentes de linguagem interativos. Ele converte interações de recuperação em sinais de aprendizado localizados, avaliando ações executáveis e propagando crédito para etapas de raciocínio latentes.
Ler original ↗