RESEARCH27
Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR
arXiv CS.LG·6 de maio de 2026
Este artigo investiga o impacto de erros de verificação sistemáticos no Reinforcement Learning com Recompensas Verificáveis (RLVR), que é usado para melhorar as capacidades de raciocínio de LLMs. Ao contrário de análises anteriores que consideravam os erros aleatórios, este estudo mostra que erros sistemáticos podem levar os modelos a aprenderem comportamentos indesejados. Experimentos com tarefas aritméticas revelam que falsos negativos sistemáticos têm efeitos semelhantes ao ruído aleatório, enquanto falsos positivos sistemáticos podem ter impactos mais complexos.
Ler original ↗