RESEARCH28

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

arXiv CS.AI·29 mai 2026

Cet article propose STHTD-MP, une méthode de différence temporelle Mirror-Prox induite par le comportement pour une prédiction hors politique plus rapide. Elle remplace la métrique de covariance par la partie symétrique de la matrice de Bellman de la politique de comportement, offrant une géométrie de mise à jour plus informative.

Off-Policy Prediction reinforcement learning learning temporal-difference learning Stochastic Approximation

Lire l'original ↗