RESEARCH27
Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training
arXiv CS.LG·22. April 2026
Curiosity-Critic führt eine intrinsische Belohnung für das Training von Weltmodellen ein, die sich auf die Verbesserung des kumulativen Vorhersagefehlers statt nur der aktuellen Übergänge konzentriert. Es nutzt einen gelernten Kritiker, um eine asymptotische Fehlergrundlinie zu schätzen, trennt so effektiv epistemische von aleatorischen Fehlern und lenkt die Exploration auf lernbare Übergänge.
Original lesen ↗