heapsort
RESEARCH27

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

arXiv CS.LG·22. April 2026

Curiosity-Critic führt eine intrinsische Belohnung für das Training von Weltmodellen ein, die sich auf die Verbesserung des kumulativen Vorhersagefehlers statt nur der aktuellen Übergänge konzentriert. Es nutzt einen gelernten Kritiker, um eine asymptotische Fehlergrundlinie zu schätzen, trennt so effektiv epistemische von aleatorischen Fehlern und lenkt die Exploration auf lernbare Übergänge.

Original lesen