RESEARCHarXiv CS.CL·4/27/2026
Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning
Diese Arbeit untersucht, ob Ergebnisbelohnungen beim Reinforcement Learning für Chain-of-Thought-Reasoning eine überprüfbare oder kausal wichtige Argumentation in LLMs garantieren. Unter Einführung der Metriken CIR und SR stellen die Autoren fest, dass RLVR zwar die Genauigkeit verbessert, aber CIR oder SR nicht zuverlässig steigert, und eine geringe Menge SFT dies beheben kann.
27