RESEARCHarXiv CS.AI·vor 12T
Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
Dieses Papier stellt STHTD-MP vor, eine verhaltensinduzierte Mirror-Prox-Zeitdifferenzmethode für eine schnellere Off-Policy-Vorhersage. Sie ersetzt die Kovarianzmetrik durch den symmetrischen Teil der Bellman-Matrix der Verhaltenspolitik, was eine informativere Update-Geometrie bietet.
28