PPO

3 items

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Ein studentischer KI-Forscher entdeckte, warum die Fusion von Vorteilen unterschiedlicher Zeitskalen in PPO-Actor-Critic-Architekturen zum Strategiezusammenbruch führt. Dies geschieht aufgrund des Manipulierens des Surrogat-Ziels und der Präferenz des Routers für kurzfristige Horizonte wegen geringerer zeitlicher Unsicherheit.

Optimization Actor-Critic reinforcement learning PPO

RESEARCHarXiv CS.LG·4/8/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.AI·4/13/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Sequence-Level PPO (SPPO) behebt die Einschränkungen des standardmäßigen Token-Level PPO bei langfristigen LLM-Begründungsaufgaben, indem es den Prozess als ein Sequence-Level Contextual Bandit-Problem neu formuliert. Dieser Ansatz nutzt eine entkoppelte skalare Wertfunktion, um Vorteilssignale mit geringer Varianz abzuleiten, was eine verbesserte Stichprobeneffizienz und Stabilität ohne den hohen Rechenaufwand kritikerfreier Alternativen bietet.

LLMs reasoning tasks reinforcement learning PPO