heapsort
RESEARCH27

Distributional Reinforcement Learning via the Cram\'er Distance

arXiv CS.LG·12. Mai 2026

Dieser Artikel stellt den C-DSAC-Algorithmus vor, der Soft Actor-Critic im Bereich des verteilten Reinforcement Learnings anwendet und die Cramér-Distanz minimiert. Empirische Ergebnisse zeigen, dass C-DSAC bestehende Methoden übertrifft, insbesondere in komplexen Umgebungen, was auf seine vertrauensbasierten Q-Wert-Updates zurückzuführen ist.

Original lesen