RESEARCH29
ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning
arXiv CS.LG·20 mai 2026
ReCrit est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la performance des grands modèles linguistiques dans l'interaction critique scientifique. Il aborde le problème des LLM qui abandonnent des solutions correctes après une critique de l'utilisateur, en se concentrant sur les transitions de correction entre les tours et en catégorisant les comportements tels que la correction, la sycophanie et la robustesse.
Lire l'original ↗