RESEARCH27
Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning
arXiv CS.CL·27. April 2026
Diese Arbeit untersucht, ob Ergebnisbelohnungen beim Reinforcement Learning für Chain-of-Thought-Reasoning eine überprüfbare oder kausal wichtige Argumentation in LLMs garantieren. Unter Einführung der Metriken CIR und SR stellen die Autoren fest, dass RLVR zwar die Genauigkeit verbessert, aber CIR oder SR nicht zuverlässig steigert, und eine geringe Menge SFT dies beheben kann.
reinforcement learningAI trainingLarge Language Models (LLMs)Model EvaluationChain-of-Thought Reasoning
Original lesen ↗