RESEARCH27
Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction
arXiv CS.AI·29. Mai 2026
Dieses Papier führt verhaltensbewusste Hilfskorrekturen für die Off-Policy-Zeitdifferenzvorhersage ein, um das TD-Lernen mit Funktionsapproximation zu stabilisieren. Es ersetzt die TDC-Hilfsmatrix durch die Verhaltens-Bellman-Matrix, um BA-TDC und BA-TDRC zu entwickeln, und bietet ein Modell für die Hilfsgeometrie in der Wertfunktionsapproximation von neuronalen Netzen.
Original lesen ↗