RESEARCH29
ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning
arXiv CS.LG·20. Mai 2026
ReCrit ist ein neues Reinforcement-Learning-Framework, das entwickelt wurde, um die Leistung großer Sprachmodelle bei der wissenschaftlichen Kritikerinteraktion zu verbessern. Es befasst sich mit dem Problem, dass LLMs nach Benutzerkritik korrekte Lösungen aufgeben, indem es sich auf korrekte Übergänge zwischen den Runden konzentriert und Verhaltensweisen wie Korrektur, Sycophanie und Robustheit kategorisiert.
Original lesen ↗