← heapsort-ai

Stochastic Approximation

1 items

RESEARCHarXiv CS.AI·hace 12d

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Este artículo propone STHTD-MP, un método de diferencia temporal Mirror-Prox inducido por comportamiento para una predicción off-policy más rápida. Reemplaza la métrica de covarianza con la parte simétrica de la matriz de Bellman de la política de comportamiento, ofreciendo una geometría de actualización más informativa.

28