RESEARCH29

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

arXiv CS.LG·20 mai 2026

ReCrit est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la performance des grands modèles linguistiques dans l'interaction critique scientifique. Il aborde le problème des LLM qui abandonnent des solutions correctes après une critique de l'utilisateur, en se concentrant sur les transitions de correction entre les tours et en catégorisant les comportements tels que la correction, la sycophanie et la robustesse.

reinforcement learning learning Scientific Reasoning large language models Critic Interaction

Lire l'original ↗