RESEARCH27

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

arXiv CS.CL·27 de maio de 2026

RICE-PO é uma nova estrutura de otimização de políticas que aborda o desafio de atribuição de crédito em agentes de linguagem interativos. Ele converte interações de recuperação em sinais de aprendizado localizados, avaliando ações executáveis e propagando crédito para etapas de raciocínio latentes.

Policy optimization reinforcement learning Retrieval systems AI agents Credit assignment

Ler original ↗