RESEARCH↑ trending42

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Reddit r/MachineLearning·16. April 2026

Ein studentischer KI-Forscher entdeckte, warum die Fusion von Vorteilen unterschiedlicher Zeitskalen in PPO-Actor-Critic-Architekturen zum Strategiezusammenbruch führt. Dies geschieht aufgrund des Manipulierens des Surrogat-Ziels und der Präferenz des Routers für kurzfristige Horizonte wegen geringerer zeitlicher Unsicherheit.

Optimization Actor-Critic reinforcement learning PPO temporal-credit-assignment

Original lesen ↗