Stochastic Approximation — artículos, noticias e investigación de IA

RESEARCHarXiv CS.AI·hace 12d

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Este artículo propone STHTD-MP, un método de diferencia temporal Mirror-Prox inducido por comportamiento para una predicción off-policy más rápida. Reemplaza la métrica de covarianza con la parte simétrica de la matriz de Bellman de la política de comportamiento, ofreciendo una geometría de actualización más informativa.

Off-Policy Prediction reinforcement learning learning temporal-difference learning