RESEARCH27
Distributional Reinforcement Learning via the Cram\'er Distance
arXiv CS.LG·12 de mayo de 2026
Este artículo introduce el algoritmo C-DSAC, que aplica Soft Actor-Critic en un entorno de aprendizaje por refuerzo distribucional minimizando la distancia de Cramér. Los resultados empíricos muestran que C-DSAC supera a los métodos existentes, especialmente en entornos complejos, debido a sus actualizaciones de valores Q impulsadas por la confianza.
Leer original ↗