← heapsort-ai

off-policy learning

2 items

RESEARCHarXiv CS.AI·07/05/2026

Regularized Centered Emphatic Temporal Difference Learning

Cet article présente l'apprentissage par différence temporelle emphatique régularisée (RETD) pour aborder le compromis entre stabilité, géométrie de projection et variance dans l'apprentissage par différence temporelle hors politique. Il propose une méthode qui régularise la récursion de centrage auxiliaire pour maintenir la définie positivité de la matrice clé ETD et prouve sa convergence.

27
RESEARCHarXiv CS.AI·il y a 12j

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Cet article propose des corrections auxiliaires conscientes du comportement pour la prédiction de la différence temporelle hors politique, visant à stabiliser l'apprentissage TD avec approximation de fonction. Il remplace la matrice auxiliaire TDC par la matrice de Bellman comportementale pour développer BA-TDC et BA-TDRC, fournissant un modèle pour la conception de la géométrie auxiliaire dans l'approximation de valeur des réseaux neuronaux.

27