RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026
Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]
Un chercheur étudiant en IA a découvert pourquoi la fusion d'avantages à plusieurs échelles de temps dans les architectures PPO Actor-Critic provoque l'effondrement de la politique. Cela est dû au «piratage» de l'objectif de substitution et à la préférence pour les horizons à court terme en raison d'une incertitude temporelle plus faible.
42