notch
RESEARCH27

LLM Reasoning with Process Rewards for Outcome-Guided Steps

arXiv CS.LG·6 de abril de 2026

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

mathematical reasoningProcess RewardsReinforcement LearningAILLM
Ler original