RESEARCH27

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

arXiv CS.LG·22 avril 2026

Curiosity-Critic introduit une récompense intrinsèque pour l'entraînement des modèles de monde, en se concentrant sur l'amélioration de l'erreur de prédiction cumulative plutôt que sur les transitions actuelles. Il utilise un critique appris pour estimer une base d'erreur asymptotique, séparant efficacement les erreurs épistémiques des erreurs aléatoires et orientant l'exploration vers les transitions apprenables.

Epistemic Uncertainty reinforcement learning World Models curiosity prediction-error

Lire l'original ↗