Off-Policy Prediction — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.AI·vor 12T

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Dieses Papier stellt STHTD-MP vor, eine verhaltensinduzierte Mirror-Prox-Zeitdifferenzmethode für eine schnellere Off-Policy-Vorhersage. Sie ersetzt die Kovarianzmetrik durch den symmetrischen Teil der Bellman-Matrix der Verhaltenspolitik, was eine informativere Update-Geometrie bietet.

Off-Policy Prediction reinforcement learning learning temporal-difference learning