RESEARCH28
Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
arXiv CS.AI·29 mai 2026
Cet article propose STHTD-MP, une méthode de différence temporelle Mirror-Prox induite par le comportement pour une prédiction hors politique plus rapide. Elle remplace la métrique de covariance par la partie symétrique de la matrice de Bellman de la politique de comportement, offrant une géométrie de mise à jour plus informative.
Off-Policy Predictionreinforcement learninglearningtemporal-difference learningStochastic Approximation
Lire l'original ↗