← heapsort-ai

self-critique

1 items

RESEARCHarXiv CS.AI·23d atrás

ICRL: Learning to Internalize Self-Critique with Reinforcement Learning

ICRL propõe um novo framework para treinar agentes de modelos de linguagem grandes a internalizar a autocrítica, convertendo feedback em capacidade de resolução de problemas sem assistência. Ele treina conjuntamente um solucionador e um crítico a partir de um backbone compartilhado, recompensando o crítico por feedback acionável para promover a auto-melhoria iterativa.

27