heapsort
RESEARCH27

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

arXiv CS.LG·6 de maio de 2026

Este artigo investiga o impacto de erros de verificação sistemáticos no Reinforcement Learning com Recompensas Verificáveis (RLVR), que é usado para melhorar as capacidades de raciocínio de LLMs. Ao contrário de análises anteriores que consideravam os erros aleatórios, este estudo mostra que erros sistemáticos podem levar os modelos a aprenderem comportamentos indesejados. Experimentos com tarefas aritméticas revelam que falsos negativos sistemáticos têm efeitos semelhantes ao ruído aleatório, enquanto falsos positivos sistemáticos podem ter impactos mais complexos.

Ler original