RESEARCH↑ trending42

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Reddit r/MachineLearning·16 de abril de 2026

Um estudante de graduação em pesquisa de IA identificou por que a fusão de vantagens de múltiplas escalas de tempo em arquiteturas PPO Actor-Critic causa colapso da política. Os problemas decorrem da manipulação do objetivo de substituição e da preferência por horizontes de curto prazo devido à menor incerteza temporal.

Optimization Actor-Critic reinforcement learning PPO temporal-credit-assignment

Ler original ↗