RESEARCH27
Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training
arXiv CS.LG·22 avril 2026
Curiosity-Critic introduit une récompense intrinsèque pour l'entraînement des modèles de monde, en se concentrant sur l'amélioration de l'erreur de prédiction cumulative plutôt que sur les transitions actuelles. Il utilise un critique appris pour estimer une base d'erreur asymptotique, séparant efficacement les erreurs épistémiques des erreurs aléatoires et orientant l'exploration vers les transitions apprenables.
Lire l'original ↗