RESEARCHarXiv CS.LG·22/04/2026
Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training
Curiosity-Critic introduz uma recompensa intrínseca para o treinamento de modelos de mundo, focada na melhoria do erro de previsão cumulativo em vez de apenas transições atuais. Ele utiliza um crítico aprendido para estimar uma linha de base de erro assintótico, separando efetivamente erros epistêmicos de aleatórios e direcionando a exploração para transições aprendíveis.
27