RESEARCH↑ trending42

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Reddit r/MachineLearning·16 de abril de 2026

Un estudiante de IA de pregrado en investigación identificó por qué la fusión de ventajas de múltiples escalas de tiempo en arquitecturas PPO Actor-Critic provoca el colapso de la política. Esto se debe a la manipulación del objetivo sustituto y a la preferencia por horizontes a corto plazo debido a una menor incertidumbre temporal.

Optimization Actor-Critic reinforcement learning PPO temporal-credit-assignment

Leer original ↗