heapsort
RESEARCH27

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

arXiv CS.AI·29 mai 2026

Cet article propose des corrections auxiliaires conscientes du comportement pour la prédiction de la différence temporelle hors politique, visant à stabiliser l'apprentissage TD avec approximation de fonction. Il remplace la matrice auxiliaire TDC par la matrice de Bellman comportementale pour développer BA-TDC et BA-TDRC, fournissant un modèle pour la conception de la géométrie auxiliaire dans l'approximation de valeur des réseaux neuronaux.

Lire l'original