PPO

3 items

RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Un estudiante de IA de pregrado en investigación identificó por qué la fusión de ventajas de múltiples escalas de tiempo en arquitecturas PPO Actor-Critic provoca el colapso de la política. Esto se debe a la manipulación del objetivo sustituto y a la preferencia por horizontes a corto plazo debido a una menor incertidumbre temporal.

Optimization Actor-Critic reinforcement learning PPO

RESEARCHarXiv CS.LG·8/4/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.AI·13/4/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

SPPO (Sequence-Level PPO) aborda las limitaciones del PPO estándar en tareas de razonamiento de LLMs de largo horizonte, reformulando el proceso como un problema de Bandido Contextual a Nivel de Secuencia. Este enfoque utiliza una función de valor escalar desacoplada para derivar señales de ventaja de baja varianza, mejorando la eficiencia de la muestra y la estabilidad sin la sobrecarga computacional.

LLMs reasoning tasks reinforcement learning PPO