heapsort
RESEARCH29

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

arXiv CS.LG·20. Mai 2026

ReCrit ist ein neues Reinforcement-Learning-Framework, das entwickelt wurde, um die Leistung großer Sprachmodelle bei der wissenschaftlichen Kritikerinteraktion zu verbessern. Es befasst sich mit dem Problem, dass LLMs nach Benutzerkritik korrekte Lösungen aufgeben, indem es sich auf korrekte Übergänge zwischen den Runden konzentriert und Verhaltensweisen wie Korrektur, Sycophanie und Robustheit kategorisiert.

Original lesen