RESEARCH28
Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
arXiv CS.AI·29. Mai 2026
Dieses Papier stellt STHTD-MP vor, eine verhaltensinduzierte Mirror-Prox-Zeitdifferenzmethode für eine schnellere Off-Policy-Vorhersage. Sie ersetzt die Kovarianzmetrik durch den symmetrischen Teil der Bellman-Matrix der Verhaltenspolitik, was eine informativere Update-Geometrie bietet.
Off-Policy Predictionreinforcement learninglearningtemporal-difference learningStochastic Approximation
Original lesen ↗