← heapsort-ai

curiosity

1 items

RESEARCHarXiv CS.LG·22/04/2026

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Curiosity-Critic introduz uma recompensa intrínseca para o treinamento de modelos de mundo, focada na melhoria do erro de previsão cumulativo em vez de apenas transições atuais. Ele utiliza um crítico aprendido para estimar uma linha de base de erro assintótico, separando efetivamente erros epistêmicos de aleatórios e direcionando a exploração para transições aprendíveis.

27