RESEARCHarXiv CS.AI·il y a 23j
ICRL: Learning to Internalize Self-Critique with Reinforcement Learning
ICRL propose un nouveau cadre pour entraîner les agents de grands modèles linguistiques à internaliser l'auto-critique, transformant le feedback en capacité de résolution de problèmes sans assistance. Il entraîne conjointement un solveur et un critique à partir d'un noyau partagé, récompensant le critique pour un feedback exploitable afin de favoriser l'auto-amélioration itérative.
27