← heapsort-ai

curiosity

1 items

RESEARCHarXiv CS.LG·4/22/2026

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Curiosity-Critic führt eine intrinsische Belohnung für das Training von Weltmodellen ein, die sich auf die Verbesserung des kumulativen Vorhersagefehlers statt nur der aktuellen Übergänge konzentriert. Es nutzt einen gelernten Kritiker, um eine asymptotische Fehlergrundlinie zu schätzen, trennt so effektiv epistemische von aleatorischen Fehlern und lenkt die Exploration auf lernbare Übergänge.

27