RESEARCH27
Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction
arXiv CS.AI·29 de mayo de 2026
Este artículo presenta correcciones auxiliares conscientes del comportamiento para la predicción de diferencia temporal fuera de política, buscando estabilizar el aprendizaje TD con aproximación de funciones. Reemplaza la matriz auxiliar de TDC con la matriz de Bellman de comportamiento para desarrollar BA-TDC y BA-TDRC, ofreciendo un modelo para el diseño de geometría auxiliar en la aproximación de valor de redes neuronales.
Leer original ↗