RESEARCHarXiv CS.LG·20d atrás
ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning
ReCrit é um novo framework de aprendizagem por reforço projetado para melhorar o desempenho de modelos de linguagem grandes na interação crítica científica. Ele aborda a questão de LLMs abandonarem soluções corretas após a crítica do usuário, focando em transições de correção entre turnos e categorizando comportamentos como correção, bajulação e robustez.
29