RESEARCH27

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

arXiv CS.AI·29 de mayo de 2026

Este artículo presenta correcciones auxiliares conscientes del comportamiento para la predicción de diferencia temporal fuera de política, buscando estabilizar el aprendizaje TD con aproximación de funciones. Reemplaza la matriz auxiliar de TDC con la matriz de Bellman de comportamiento para desarrollar BA-TDC y BA-TDRC, ofreciendo un modelo para el diseño de geometría auxiliar en la aproximación de valor de redes neuronales.

neural networks reinforcement learning learning temporal-difference learning off-policy learning

Leer original ↗