RESEARCH28
Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
arXiv CS.AI·29 de mayo de 2026
Este artículo propone STHTD-MP, un método de diferencia temporal Mirror-Prox inducido por comportamiento para una predicción off-policy más rápida. Reemplaza la métrica de covarianza con la parte simétrica de la matriz de Bellman de la política de comportamiento, ofreciendo una geometría de actualización más informativa.
Off-Policy Predictionreinforcement learninglearningtemporal-difference learningStochastic Approximation
Leer original ↗