RESEARCH27
ICRL: Learning to Internalize Self-Critique with Reinforcement Learning
arXiv CS.AI·18 de maio de 2026
ICRL propõe um novo framework para treinar agentes de modelos de linguagem grandes a internalizar a autocrítica, convertendo feedback em capacidade de resolução de problemas sem assistência. Ele treina conjuntamente um solucionador e um crítico a partir de um backbone compartilhado, recompensando o crítico por feedback acionável para promover a auto-melhoria iterativa.
Ler original ↗