RESEARCH27
Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning
arXiv CS.CL·27 de abril de 2026
Este artículo investiga si las recompensas de resultado en el aprendizaje por refuerzo para cadenas de pensamiento garantizan un razonamiento verificable o causalmente importante en los LLM. Introduciendo las métricas CIR y SR, los autores encuentran que, si bien el RLVR mejora la precisión, no mejora de forma fiable el CIR o el SR, y una pequeña cantidad de SFT puede remediar estos problemas.
reinforcement learningAI TrainingLarge Language Models (LLMs)Model EvaluationChain-of-Thought Reasoning
Leer original ↗