heapsort
RESEARCH27

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

arXiv CS.AI·18 de maio de 2026

ICRL propõe um novo framework para treinar agentes de modelos de linguagem grandes a internalizar a autocrítica, convertendo feedback em capacidade de resolução de problemas sem assistência. Ele treina conjuntamente um solucionador e um crítico a partir de um backbone compartilhado, recompensando o crítico por feedback acionável para promover a auto-melhoria iterativa.

Ler original