RESEARCH27

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

arXiv CS.AI·29 de maio de 2026

Este artigo propõe correções auxiliares com consciência do comportamento para a previsão de diferença temporal off-policy, visando estabilizar a aprendizagem TD com aproximação de função. Ele substitui a matriz auxiliar do TDC pela matriz de Bellman de comportamento para desenvolver BA-TDC e BA-TDRC, oferecendo um modelo para o design da geometria auxiliar em aproximação de valor por redes neurais.

neural networks reinforcement learning learning temporal-difference learning off-policy learning

Ler original ↗