RESEARCH27
Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning
arXiv CS.CL·27 avril 2026
Cet article examine si les récompenses de résultat dans l'apprentissage par renforcement pour le raisonnement en chaîne de pensée garantissent un raisonnement vérifiable ou causalement important dans les LLM. Introduisant les métriques CIR et SR, les auteurs constatent que le RLVR améliore la précision, mais pas toujours le CIR ou le SR, et qu'un léger SFT peut y remédier.
reinforcement learningAI trainingLarge Language Models (LLMs)Model EvaluationChain-of-Thought Reasoning
Lire l'original ↗