heapsort
RESEARCH27

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

arXiv CS.LG·22 de abril de 2026

Curiosity-Critic presenta una recompensa intrínseca para el entrenamiento de modelos de mundo, centrada en la mejora del error de predicción acumulativo en lugar de solo las transiciones actuales. Utiliza un crítico aprendido para estimar una línea base de error asintótico, separando eficazmente los errores epistémicos de los aleatorios y dirigiendo la exploración hacia transiciones aprendibles.

Leer original