RESEARCH28

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

arXiv CS.AI·29. Mai 2026

Dieses Papier stellt STHTD-MP vor, eine verhaltensinduzierte Mirror-Prox-Zeitdifferenzmethode für eine schnellere Off-Policy-Vorhersage. Sie ersetzt die Kovarianzmetrik durch den symmetrischen Teil der Bellman-Matrix der Verhaltenspolitik, was eine informativere Update-Geometrie bietet.

Off-Policy Prediction reinforcement learning learning temporal-difference learning Stochastic Approximation

Original lesen ↗