← heapsort-ai

temporal-difference learning

3 items

RESEARCHarXiv CS.AI·12d atrás

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Este artigo propõe um método de diferença temporal Mirror-Prox induzido por comportamento, chamado STHTD-MP, para predição off-policy mais rápida. O método substitui a métrica de covariância pela parte simétrica da matriz de Bellman da política de comportamento, oferecendo uma geometria de atualização mais informativa.

28
RESEARCHarXiv CS.AI·07/05/2026

Regularized Centered Emphatic Temporal Difference Learning

Este artigo propõe o Aprendizado por Diferença Temporal Enfática Regularizada (RETD) para resolver o dilema entre estabilidade, geometria de projeção e variância no aprendizado off-policy por diferença temporal. O método regulariza a recursão de centralização auxiliar para preservar a definida positividade da matriz chave ETD e prova sua convergência.

27
RESEARCHarXiv CS.AI·12d atrás

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Este artigo propõe correções auxiliares com consciência do comportamento para a previsão de diferença temporal off-policy, visando estabilizar a aprendizagem TD com aproximação de função. Ele substitui a matriz auxiliar do TDC pela matriz de Bellman de comportamento para desenvolver BA-TDC e BA-TDRC, oferecendo um modelo para o design da geometria auxiliar em aproximação de valor por redes neurais.

27