RESEARCH27
Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training
arXiv CS.LG·22 de abril de 2026
Curiosity-Critic introduz uma recompensa intrínseca para o treinamento de modelos de mundo, focada na melhoria do erro de previsão cumulativo em vez de apenas transições atuais. Ele utiliza um crítico aprendido para estimar uma linha de base de erro assintótico, separando efetivamente erros epistêmicos de aleatórios e direcionando a exploração para transições aprendíveis.
Ler original ↗