RESEARCH27
StaRPO: Stability-Augmented Reinforcement Policy Optimization
arXiv CS.AI·13 avril 2026
StaRPO est un nouveau cadre d'apprentissage par renforcement conçu pour améliorer la cohérence logique et la structure des grands modèles de langage dans les tâches de raisonnement complexes. Il intègre explicitement des métriques de stabilité, telles que la fonction d'autocorrélation et l'efficacité du chemin, pour évaluer la cohérence locale et l'orientation globale du processus de raisonnement.
Lire l'original ↗