heapsort
RESEARCH27

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

arXiv CS.LG·19 de maio de 2026

Esta pesquisa aborda o desafio da má atribuição de crédito em aprendizado por reforço para raciocínio multi-etapa com grandes modelos de linguagem, causado por recompensas terminais esparsas que levam a alta variância de gradiente e treinamento instável. Ela propõe uma estrutura de atribuição de crédito baseada em comparação contrafactual e a Otimização Implícita da Política de Comportamento (IBPO) para criar sinais de aprendizado sensíveis à etapa, melhorando significativamente a estabilidade e o desempenho do treinamento.

Ler original