RESEARCH29

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

arXiv CS.LG·20 de mayo de 2026

ReCrit es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar el rendimiento de los grandes modelos de lenguaje en la interacción crítica científica. Aborda el problema de que los LLM abandonen soluciones correctas después de la crítica del usuario, centrándose en las transiciones de corrección entre turnos y categorizando comportamientos como la corrección, la adulación y la robustez.

reinforcement learning learning Scientific Reasoning large language models Critic Interaction

Leer original ↗