Stochastic Approximation — articles, actualités et recherches IA

RESEARCHarXiv CS.AI·il y a 12j

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Cet article propose STHTD-MP, une méthode de différence temporelle Mirror-Prox induite par le comportement pour une prédiction hors politique plus rapide. Elle remplace la métrique de covariance par la partie symétrique de la matrice de Bellman de la politique de comportement, offrant une géométrie de mise à jour plus informative.

Off-Policy Prediction reinforcement learning learning temporal-difference learning