← heapsort-ai

temporal-difference learning

3 items

RESEARCHarXiv CS.AI·hace 11d

Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction

Este artículo propone STHTD-MP, un método de diferencia temporal Mirror-Prox inducido por comportamiento para una predicción off-policy más rápida. Reemplaza la métrica de covarianza con la parte simétrica de la matriz de Bellman de la política de comportamiento, ofreciendo una geometría de actualización más informativa.

28
RESEARCHarXiv CS.AI·7/5/2026

Regularized Centered Emphatic Temporal Difference Learning

Este artículo presenta el Aprendizaje por Diferencia Temporal Enfática Regularizada (RETD) para abordar el equilibrio entre estabilidad, geometría de proyección y varianza en el aprendizaje por diferencia temporal fuera de política. Propone un método que regulariza la recursión de centrado auxiliar para mantener la definida positividad de la matriz clave ETD y demuestra su convergencia.

27
RESEARCHarXiv CS.AI·hace 11d

Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction

Este artículo presenta correcciones auxiliares conscientes del comportamiento para la predicción de diferencia temporal fuera de política, buscando estabilizar el aprendizaje TD con aproximación de funciones. Reemplaza la matriz auxiliar de TDC con la matriz de Bellman de comportamiento para desarrollar BA-TDC y BA-TDRC, ofreciendo un modelo para el diseño de geometría auxiliar en la aproximación de valor de redes neuronales.

27