heapsort
RESEARCH27

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

arXiv CS.CL·27 avril 2026

Cet article examine si les récompenses de résultat dans l'apprentissage par renforcement pour le raisonnement en chaîne de pensée garantissent un raisonnement vérifiable ou causalement important dans les LLM. Introduisant les métriques CIR et SR, les auteurs constatent que le RLVR améliore la précision, mais pas toujours le CIR ou le SR, et qu'un léger SFT peut y remédier.

Lire l'original