off-policy learning

2 items

RESEARCHarXiv CS.AI·5/7/2026

Regularized Centered Emphatic Temporal Difference Learning

Dieses Papier stellt das Regularisierte Emphatische Temporal-Differenz-Lernen (RETD) vor, um den Kompromiss zwischen Stabilität, Projektionsgeometrie und Varianz beim Off-Policy-Temporal-Differenz-Lernen zu behandeln. Es schlägt eine Methode vor, die die Hilfszentrierungsrekursion regularisiert, um die positive Definitheit der ETD-Schlüsselmatrix zu erhalten, und beweist deren Konvergenz.

reinforcement learning learning temporal-difference learning algorithm

RESEARCHarXiv CS.AI·vor 12T

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Dieses Papier führt verhaltensbewusste Hilfskorrekturen für die Off-Policy-Zeitdifferenzvorhersage ein, um das TD-Lernen mit Funktionsapproximation zu stabilisieren. Es ersetzt die TDC-Hilfsmatrix durch die Verhaltens-Bellman-Matrix, um BA-TDC und BA-TDRC zu entwickeln, und bietet ein Modell für die Hilfsgeometrie in der Wertfunktionsapproximation von neuronalen Netzen.

neural networks reinforcement learning learning temporal-difference learning