RESEARCH27

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

arXiv CS.LG·6 de maio de 2026

Este artigo investiga o impacto de erros de verificação sistemáticos no Reinforcement Learning com Recompensas Verificáveis (RLVR), que é usado para melhorar as capacidades de raciocínio de LLMs. Ao contrário de análises anteriores que consideravam os erros aleatórios, este estudo mostra que erros sistemáticos podem levar os modelos a aprenderem comportamentos indesejados. Experimentos com tarefas aritméticas revelam que falsos negativos sistemáticos têm efeitos semelhantes ao ruído aleatório, enquanto falsos positivos sistemáticos podem ter impactos mais complexos.

reinforcement learning AI Errors Verification large language models

Ler original ↗