RESEARCH27

Regularized Centered Emphatic Temporal Difference Learning

arXiv CS.AI·7 de mayo de 2026

Este artículo presenta el Aprendizaje por Diferencia Temporal Enfática Regularizada (RETD) para abordar el equilibrio entre estabilidad, geometría de proyección y varianza en el aprendizaje por diferencia temporal fuera de política. Propone un método que regulariza la recursión de centrado auxiliar para mantener la definida positividad de la matriz clave ETD y demuestra su convergencia.

reinforcement learning learning temporal-difference learning algorithm off-policy learning

Leer original ↗