RESEARCHarXiv CS.AI·il y a 12j
Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
Cet article propose STHTD-MP, une méthode de différence temporelle Mirror-Prox induite par le comportement pour une prédiction hors politique plus rapide. Elle remplace la métrique de covariance par la partie symétrique de la matrice de Bellman de la politique de comportement, offrant une géométrie de mise à jour plus informative.
28