heapsort
RESEARCH27

Distributional Reinforcement Learning via the Cram\'er Distance

arXiv CS.LG·12 de maio de 2026

Este artigo explora o algoritmo Soft Actor-Critic (SAC) no aprendizado por reforço distribucional, introduzindo o C-DSAC que minimiza a distância de Cramér. Resultados empíricos mostram que o C-DSAC supera os métodos existentes, especialmente em ambientes complexos, devido a atualizações de valores Q impulsionadas pela confiança.

Ler original