RESEARCH27
ICRL: Learning to Internalize Self-Critique with Reinforcement Learning
arXiv CS.AI·18 mai 2026
ICRL propose un nouveau cadre pour entraîner les agents de grands modèles linguistiques à internaliser l'auto-critique, transformant le feedback en capacité de résolution de problèmes sans assistance. Il entraîne conjointement un solveur et un critique à partir d'un noyau partagé, récompensant le critique pour un feedback exploitable afin de favoriser l'auto-amélioration itérative.
Lire l'original ↗