Regularized Centered Emphatic Temporal Difference Learning
Este artigo propõe o Aprendizado por Diferença Temporal Enfática Regularizada (RETD) para resolver o dilema entre estabilidade, geometria de projeção e variância no aprendizado off-policy por diferença temporal. O método regulariza a recursão de centralização auxiliar para preservar a definida positividade da matriz chave ETD e prova sua convergência.