← heapsort-ai

Critic Interaction

1 items

RESEARCHarXiv CS.LG·vor 21T

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit ist ein neues Reinforcement-Learning-Framework, das entwickelt wurde, um die Leistung großer Sprachmodelle bei der wissenschaftlichen Kritikerinteraktion zu verbessern. Es befasst sich mit dem Problem, dass LLMs nach Benutzerkritik korrekte Lösungen aufgeben, indem es sich auf korrekte Übergänge zwischen den Runden konzentriert und Verhaltensweisen wie Korrektur, Sycophanie und Robustheit kategorisiert.

29