← heapsort-ai

Credit assignment

2 items

RESEARCHarXiv CS.LG·22d atrás

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

Esta pesquisa aborda o desafio da má atribuição de crédito em aprendizado por reforço para raciocínio multi-etapa com grandes modelos de linguagem, causado por recompensas terminais esparsas que levam a alta variância de gradiente e treinamento instável. Ela propõe uma estrutura de atribuição de crédito baseada em comparação contrafactual e a Otimização Implícita da Política de Comportamento (IBPO) para criar sinais de aprendizado sensíveis à etapa, melhorando significativamente a estabilidade e o desempenho do treinamento.

27