RESEARCH29
ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning
arXiv CS.LG·20 de mayo de 2026
ReCrit es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar el rendimiento de los grandes modelos de lenguaje en la interacción crítica científica. Aborda el problema de que los LLM abandonen soluciones correctas después de la crítica del usuario, centrándose en las transiciones de corrección entre turnos y categorizando comportamientos como la corrección, la adulación y la robustez.
Leer original ↗