← heapsort-ai

Critic Interaction

1 items

RESEARCHarXiv CS.LG·hace 21d

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

ReCrit es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar el rendimiento de los grandes modelos de lenguaje en la interacción crítica científica. Aborda el problema de que los LLM abandonen soluciones correctas después de la crítica del usuario, centrándose en las transiciones de corrección entre turnos y categorizando comportamientos como la corrección, la adulación y la robustez.

29