RESEARCHarXiv CS.AI·13/04/2026
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
Le SPPO (Sequence-Level PPO) remédie aux limites du PPO standard dans les tâches de raisonnement à long terme des LLM en reformulant le processus comme un problème de Bandit Contextuel au Niveau de la Séquence. Cette approche utilise une fonction de valeur scalaire découplée pour dériver des signaux d'avantage à faible variance, améliorant l'efficacité de l'échantillon et la stabilité sans les coûts de calcul élevés.
28