RESEARCH27

StaRPO: Stability-Augmented Reinforcement Policy Optimization

arXiv CS.AI·13 avril 2026

StaRPO est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la cohérence logique et la structure des grands modèles de langage dans les tâches de raisonnement complexes. Il intègre explicitement des métriques de stabilité, telles que la fonction d'autocorrélation et l'efficacité du chemin, pour évaluer la cohérence locale et l'orientation globale du processus de raisonnement.

Policy optimization LLMs reinforcement learning Reasoning large language models

Lire l'original ↗