RESEARCH27
Regularized Centered Emphatic Temporal Difference Learning
arXiv CS.AI·7 mai 2026
Cet article présente l'apprentissage par différence temporelle emphatique régularisée (RETD) pour aborder le compromis entre stabilité, géométrie de projection et variance dans l'apprentissage par différence temporelle hors politique. Il propose une méthode qui régularise la récursion de centrage auxiliaire pour maintenir la définie positivité de la matrice clé ETD et prouve sa convergence.
Lire l'original ↗