Chain-of-Thought Reasoning — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·27/04/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Este artigo investiga se as recompensas de resultado no aprendizado por reforço para cadeias de raciocínio garantem raciocínio verificável ou causalmente importante em LLMs. Os autores introduzem as métricas Causal Importance of Reasoning (CIR) e Sufficiency of Reasoning (SR), descobrindo que, embora o RLVR melhore a precisão, ele não melhora consistentemente o CIR ou SR, e um pequeno ajuste de SFT pode ser um remédio.

reinforcement learning AI Training Large Language Models (LLMs)Model Evaluation