← heapsort-ai

Chain-of-Thought Reasoning

1 items

RESEARCHarXiv CS.CL·27/04/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Cet article examine si les récompenses de résultat dans l'apprentissage par renforcement pour le raisonnement en chaîne de pensée garantissent un raisonnement vérifiable ou causalement important dans les LLM. Introduisant les métriques CIR et SR, les auteurs constatent que le RLVR améliore la précision, mais pas toujours le CIR ou le SR, et qu'un léger SFT peut y remédier.

27