RESEARCH27

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

arXiv CS.AI·29. Mai 2026

Dieses Papier führt verhaltensbewusste Hilfskorrekturen für die Off-Policy-Zeitdifferenzvorhersage ein, um das TD-Lernen mit Funktionsapproximation zu stabilisieren. Es ersetzt die TDC-Hilfsmatrix durch die Verhaltens-Bellman-Matrix, um BA-TDC und BA-TDRC zu entwickeln, und bietet ein Modell für die Hilfsgeometrie in der Wertfunktionsapproximation von neuronalen Netzen.

neural networks reinforcement learning learning temporal-difference learning off-policy learning

Original lesen ↗