RESEARCH27

Regularized Centered Emphatic Temporal Difference Learning

arXiv CS.AI·7 mai 2026

Cet article présente l'apprentissage par différence temporelle emphatique régularisée (RETD) pour aborder le compromis entre stabilité, géométrie de projection et variance dans l'apprentissage par différence temporelle hors politique. Il propose une méthode qui régularise la récursion de centrage auxiliaire pour maintenir la définie positivité de la matrice clé ETD et prouve sa convergence.

reinforcement learning learning temporal-difference learning algorithm off-policy learning

Lire l'original ↗