RESEARCH27

Distributional Reinforcement Learning via the Cram\'er Distance

arXiv CS.LG·12 mai 2026

Cet article présente l'algorithme C-DSAC, qui applique Soft Actor-Critic dans un cadre d'apprentissage par renforcement distributionnel en minimisant la distance de Cramér. Les résultats empiriques montrent que C-DSAC surpasse les méthodes existantes, en particulier dans les environnements de haute complexité, grâce à des mises à jour des valeurs Q basées sur la confiance.

deep learning reinforcement learning learning Algorithms robotics

Lire l'original ↗