RESEARCH29

ReCrit: Transition-Aware Reinforcement Learning for Scientific Critic Reasoning

arXiv CS.LG·20 de maio de 2026

ReCrit é um novo framework de aprendizagem por reforço projetado para melhorar o desempenho de modelos de linguagem grandes na interação crítica científica. Ele aborda a questão de LLMs abandonarem soluções corretas após a crítica do usuário, focando em transições de correção entre turnos e categorizando comportamentos como correção, bajulação e robustez.

reinforcement learning learning Scientific Reasoning large language models Critic Interaction

Ler original ↗