heapsort
RESEARCH↑ trending42

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Reddit r/MachineLearning·16 avril 2026

Un chercheur étudiant en IA a découvert pourquoi la fusion d'avantages à plusieurs échelles de temps dans les architectures PPO Actor-Critic provoque l'effondrement de la politique. Cela est dû au «piratage» de l'objectif de substitution et à la préférence pour les horizons à court terme en raison d'une incertitude temporelle plus faible.

Lire l'original