Regularized Centered Emphatic Temporal Difference Learning
Este artículo presenta el Aprendizaje por Diferencia Temporal Enfática Regularizada (RETD) para abordar el equilibrio entre estabilidad, geometría de proyección y varianza en el aprendizaje por diferencia temporal fuera de política. Propone un método que regulariza la recursión de centrado auxiliar para mantener la definida positividad de la matriz clave ETD y demuestra su convergencia.