PPO

3 items

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Um estudante de graduação em pesquisa de IA identificou por que a fusão de vantagens de múltiplas escalas de tempo em arquiteturas PPO Actor-Critic causa colapso da política. Os problemas decorrem da manipulação do objetivo de substituição e da preferência por horizontes de curto prazo devido à menor incerteza temporal.

Optimization Actor-Critic reinforcement learning PPO

RESEARCHarXiv CS.LG·08/04/2026

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Este trabalho apresenta o ambiente Territory Paint Wars para investigar modos de falha do PPO em aprendizado por reforço multiagente competitivo. Ele identifica falhas de implementação que causam baixo desempenho e, após a correção, revela um novo problema de overfitting competitivo que prejudica a generalização.

failure modes reinforcement learning self-play PPO

RESEARCHarXiv CS.AI·13/04/2026

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

O SPPO (Sequence-Level PPO) aborda as limitações do PPO padrão em tarefas de raciocínio de LLMs de longo horizonte, reformulando o processo como um problema de Bandido Contextual de Nível de Sequência. Isso permite derivar sinais de vantagem de baixa variância com uma função de valor escalar desacoplada, melhorando a eficiência de amostra e a estabilidade sem o alto custo computacional.

LLMs reasoning tasks reinforcement learning PPO