← heapsort-ai

reasoning tasks

1 items

RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Le SPPO (Sequence-Level PPO) remédie aux limites du PPO standard dans les tâches de raisonnement à long terme des LLM en reformulant le processus comme un problème de Bandit Contextuel au Niveau de la Séquence. Cette approche utilise une fonction de valeur scalaire découplée pour dériver des signaux d'avantage à faible variance, améliorant l'efficacité de l'échantillon et la stabilité sans les coûts de calcul élevés.

28