RESEARCH29

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

arXiv CS.LG·20. Mai 2026

ReCrit ist ein neues Reinforcement-Learning-Framework, das entwickelt wurde, um die Leistung großer Sprachmodelle bei der wissenschaftlichen Kritikerinteraktion zu verbessern. Es befasst sich mit dem Problem, dass LLMs nach Benutzerkritik korrekte Lösungen aufgeben, indem es sich auf korrekte Übergänge zwischen den Runden konzentriert und Verhaltensweisen wie Korrektur, Sycophanie und Robustheit kategorisiert.

reinforcement learning learning Scientific Reasoning large language models Critic Interaction

Original lesen ↗