heapsort
RESEARCH27

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

arXiv CS.CL·27 de abril de 2026

Este artículo investiga si las recompensas de resultado en el aprendizaje por refuerzo para cadenas de pensamiento garantizan un razonamiento verificable o causalmente importante en los LLM. Introduciendo las métricas CIR y SR, los autores encuentran que, si bien el RLVR mejora la precisión, no mejora de forma fiable el CIR o el SR, y una pequeña cantidad de SFT puede remediar estos problemas.

Leer original