RESEARCH28
Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
arXiv CS.AI·29 de maio de 2026
Este artigo propõe um método de diferença temporal Mirror-Prox induzido por comportamento, chamado STHTD-MP, para predição off-policy mais rápida. O método substitui a métrica de covariância pela parte simétrica da matriz de Bellman da política de comportamento, oferecendo uma geometria de atualização mais informativa.
Off-Policy Predictionreinforcement learninglearningtemporal-difference learningStochastic Approximation
Ler original ↗