RESEARCHarXiv CS.LG·22/4/2026
Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training
Curiosity-Critic presenta una recompensa intrínseca para el entrenamiento de modelos de mundo, centrada en la mejora del error de predicción acumulativo en lugar de solo las transiciones actuales. Utiliza un crítico aprendido para estimar una línea base de error asintótico, separando eficazmente los errores epistémicos de los aleatorios y dirigiendo la exploración hacia transiciones aprendibles.
27