RESEARCHarXiv CS.AI·23d atrás
ICRL: Learning to Internalize Self-Critique with Reinforcement Learning
ICRL propõe um novo framework para treinar agentes de modelos de linguagem grandes a internalizar a autocrítica, convertendo feedback em capacidade de resolução de problemas sem assistência. Ele treina conjuntamente um solucionador e um crítico a partir de um backbone compartilhado, recompensando o crítico por feedback acionável para promover a auto-melhoria iterativa.
27