RESEARCH27
ICRL: Learning to Internalize Self-Critique with Reinforcement Learning
arXiv CS.AI·18 de mayo de 2026
ICRL propone un nuevo framework para entrenar agentes de modelos de lenguaje grandes para internalizar la autocrítica, convirtiendo la retroalimentación en capacidad de resolución de problemas sin asistencia. Entrena conjuntamente un solucionador y un crítico desde un backbone compartido, recompensando al crítico por una retroalimentación accionable para fomentar la auto-mejora iterativa.
Leer original ↗