heapsort
RESEARCH27

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

arXiv CS.LG·6 mai 2026

Cet article étudie l'impact des erreurs de vérification systématiques sur l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une approche visant à améliorer les capacités de raisonnement des grands modèles de langage. Contrairement aux analyses précédentes qui traitaient les erreurs comme aléatoires, cette étude montre que des erreurs systématiques peuvent amener les modèles à apprendre des comportements indésirables. Des expériences sur des tâches arithmétiques révèlent que les faux négatifs systématiques ont des effets similaires au bruit aléatoire, tandis que les faux positifs systématiques peuvent avoir des impacts plus graves.

Lire l'original