heapsort
RESEARCH27

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

arXiv CS.LG·22 de abril de 2026

Curiosity-Critic introduz uma recompensa intrínseca para o treinamento de modelos de mundo, focada na melhoria do erro de previsão cumulativo em vez de apenas transições atuais. Ele utiliza um crítico aprendido para estimar uma linha de base de erro assintótico, separando efetivamente erros epistêmicos de aleatórios e direcionando a exploração para transições aprendíveis.

Ler original