heapsort
RESEARCH27

Distributional Reinforcement Learning via the Cram\'er Distance

arXiv CS.LG·12 de mayo de 2026

Este artículo introduce el algoritmo C-DSAC, que aplica Soft Actor-Critic en un entorno de aprendizaje por refuerzo distribucional minimizando la distancia de Cramér. Los resultados empíricos muestran que C-DSAC supera a los métodos existentes, especialmente en entornos complejos, debido a sus actualizaciones de valores Q impulsadas por la confianza.

Leer original