Credit assignment — artigos, notícias e pesquisas de IA

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO é uma nova estrutura de otimização de políticas que aborda o desafio de atribuição de crédito em agentes de linguagem interativos. Ele converte interações de recuperação em sinais de aprendizado localizados, avaliando ações executáveis e propagando crédito para etapas de raciocínio latentes.

RESEARCHarXiv CS.LG·22d atrás

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta pesquisa aborda o desafio da má atribuição de crédito em aprendizado por reforço para raciocínio multi-etapa com grandes modelos de linguagem, causado por recompensas terminais esparsas que levam a alta variância de gradiente e treinamento instável. Ela propõe uma estrutura de atribuição de crédito baseada em comparação contrafactual e a Otimização Implícita da Política de Comportamento (IBPO) para criar sinais de aprendizado sensíveis à etapa, melhorando significativamente a estabilidade e o desempenho do treinamento.

reinforcement learning AI training Machine learning research large language models