← heapsort-ai

curiosity

1 items

RESEARCHarXiv CS.LG·22/04/2026

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Curiosity-Critic introduit une récompense intrinsèque pour l'entraînement des modèles de monde, en se concentrant sur l'amélioration de l'erreur de prédiction cumulative plutôt que sur les transitions actuelles. Il utilise un critique appris pour estimer une base d'erreur asymptotique, séparant efficacement les erreurs épistémiques des erreurs aléatoires et orientant l'exploration vers les transitions apprenables.

27