RESEARCH29
ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning
arXiv CS.LG·20 de maio de 2026
ReCrit é um novo framework de aprendizagem por reforço projetado para melhorar o desempenho de modelos de linguagem grandes na interação crítica científica. Ele aborda a questão de LLMs abandonarem soluções corretas após a crítica do usuário, focando em transições de correção entre turnos e categorizando comportamentos como correção, bajulação e robustez.
Ler original ↗