ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning
ReCrit es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar el rendimiento de los grandes modelos de lenguaje en la interacción crítica científica. Aborda el problema de que los LLM abandonen soluciones correctas después de la crítica del usuario, centrándose en las transiciones de corrección entre turnos y categorizando comportamientos como la corrección, la adulación y la robustez.