off-policy learning

2 items

RESEARCHarXiv CS.AI·7/5/2026

Regularized Centered Emphatic Temporal Difference Learning

Este artículo presenta el Aprendizaje por Diferencia Temporal Enfática Regularizada (RETD) para abordar el equilibrio entre estabilidad, geometría de proyección y varianza en el aprendizaje por diferencia temporal fuera de política. Propone un método que regulariza la recursión de centrado auxiliar para mantener la definida positividad de la matriz clave ETD y demuestra su convergencia.

reinforcement learning learning temporal-difference learning algorithm

RESEARCHarXiv CS.AI·hace 12d

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Este artículo presenta correcciones auxiliares conscientes del comportamiento para la predicción de diferencia temporal fuera de política, buscando estabilizar el aprendizaje TD con aproximación de funciones. Reemplaza la matriz auxiliar de TDC con la matriz de Bellman de comportamiento para desarrollar BA-TDC y BA-TDRC, ofreciendo un modelo para el diseño de geometría auxiliar en la aproximación de valor de redes neuronales.

neural networks reinforcement learning learning temporal-difference learning