RESEARCH27

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

arXiv CS.AI·18 de mayo de 2026

ICRL propone un nuevo framework para entrenar agentes de modelos de lenguaje grandes para internalizar la autocrítica, convirtiendo la retroalimentación en capacidad de resolución de problemas sin asistencia. Entrena conjuntamente un solucionador y un crítico desde un backbone compartido, recompensando al crítico por una retroalimentación accionable para fomentar la auto-mejora iterativa.

reinforcement learning learning self-critique large language models AI agents

Leer original ↗