RESEARCH27

Regularized Centered Emphatic Temporal Difference Learning

arXiv CS.AI·7 de maio de 2026

Este artigo propõe o Aprendizado por Diferença Temporal Enfática Regularizada (RETD) para resolver o dilema entre estabilidade, geometria de projeção e variância no aprendizado off-policy por diferença temporal. O método regulariza a recursão de centralização auxiliar para preservar a definida positividade da matriz chave ETD e prova sua convergência.

reinforcement learning learning temporal-difference learning algorithm off-policy learning

Ler original ↗