RESEARCH27

Regularized Centered Emphatic Temporal Difference Learning

arXiv CS.AI·7. Mai 2026

Dieses Papier stellt das Regularisierte Emphatische Temporal-Differenz-Lernen (RETD) vor, um den Kompromiss zwischen Stabilität, Projektionsgeometrie und Varianz beim Off-Policy-Temporal-Differenz-Lernen zu behandeln. Es schlägt eine Methode vor, die die Hilfszentrierungsrekursion regularisiert, um die positive Definitheit der ETD-Schlüsselmatrix zu erhalten, und beweist deren Konvergenz.

reinforcement learning learning temporal-difference learning algorithm off-policy learning

Original lesen ↗