heapsort
RESEARCH27

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

arXiv CS.AI·18 mai 2026

ICRL propose un nouveau cadre pour entraîner les agents de grands modèles linguistiques à internaliser l'auto-critique, transformant le feedback en capacité de résolution de problèmes sans assistance. Il entraîne conjointement un solveur et un critique à partir d'un noyau partagé, récompensant le critique pour un feedback exploitable afin de favoriser l'auto-amélioration itérative.

Lire l'original