RESEARCHarXiv CS.CL·27/04/2026
Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning
Este artigo investiga se as recompensas de resultado no aprendizado por reforço para cadeias de raciocínio garantem raciocínio verificável ou causalmente importante em LLMs. Os autores introduzem as métricas Causal Importance of Reasoning (CIR) e Sufficiency of Reasoning (SR), descobrindo que, embora o RLVR melhore a precisão, ele não melhora consistentemente o CIR ou SR, e um pequeno ajuste de SFT pode ser um remédio.
27