RESEARCH27
Distributional Reinforcement Learning via the Cram\'er Distance
arXiv CS.LG·12 mai 2026
Cet article présente l'algorithme C-DSAC, qui applique Soft Actor-Critic dans un cadre d'apprentissage par renforcement distributionnel en minimisant la distance de Cramér. Les résultats empiriques montrent que C-DSAC surpasse les méthodes existantes, en particulier dans les environnements de haute complexité, grâce à des mises à jour des valeurs Q basées sur la confiance.
Lire l'original ↗