RESEARCH27
Distributional Reinforcement Learning via the Cram\'er Distance
arXiv CS.LG·12 de maio de 2026
Este artigo explora o algoritmo Soft Actor-Critic (SAC) no aprendizado por reforço distribucional, introduzindo o C-DSAC que minimiza a distância de Cramér. Resultados empíricos mostram que o C-DSAC supera os métodos existentes, especialmente em ambientes complexos, devido a atualizações de valores Q impulsionadas pela confiança.
Ler original ↗