← heapsort-ai

self-critique

1 items

RESEARCHarXiv CS.AI·il y a 23j

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL propose un nouveau cadre pour entraîner les agents de grands modèles linguistiques à internaliser l'auto-critique, transformant le feedback en capacité de résolution de problèmes sans assistance. Il entraîne conjointement un solveur et un critique à partir d'un noyau partagé, récompensant le critique pour un feedback exploitable afin de favoriser l'auto-amélioration itérative.

27