← heapsort-ai

PPO

3 items

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Un chercheur étudiant en IA a découvert pourquoi la fusion d'avantages à plusieurs échelles de temps dans les architectures PPO Actor-Critic provoque l'effondrement de la politique. Cela est dû au «piratage» de l'objectif de substitution et à la préférence pour les horizons à court terme en raison d'une incertitude temporelle plus faible.

42
RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Le SPPO (Sequence-Level PPO) remédie aux limites du PPO standard dans les tâches de raisonnement à long terme des LLM en reformulant le processus comme un problème de Bandit Contextuel au Niveau de la Séquence. Cette approche utilise une fonction de valeur scalaire découplée pour dériver des signaux d'avantage à faible variance, améliorant l'efficacité de l'échantillon et la stabilité sans les coûts de calcul élevés.

28