RESEARCH28

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

arXiv CS.AI·29 de mayo de 2026

Este artículo propone STHTD-MP, un método de diferencia temporal Mirror-Prox inducido por comportamiento para una predicción off-policy más rápida. Reemplaza la métrica de covarianza con la parte simétrica de la matriz de Bellman de la política de comportamiento, ofreciendo una geometría de actualización más informativa.

Off-Policy Prediction reinforcement learning learning temporal-difference learning Stochastic Approximation

Leer original ↗