RESEARCH27
Regularized Centered Emphatic Temporal Difference Learning
arXiv CS.AI·7 de mayo de 2026
Este artículo presenta el Aprendizaje por Diferencia Temporal Enfática Regularizada (RETD) para abordar el equilibrio entre estabilidad, geometría de proyección y varianza en el aprendizaje por diferencia temporal fuera de política. Propone un método que regulariza la recursión de centrado auxiliar para mantener la definida positividad de la matriz clave ETD y demuestra su convergencia.
Leer original ↗