curiosity — artículos, noticias e investigación de IA

RESEARCHarXiv CS.LG·22/4/2026

Curiosity-Critic: Cumulative Prediction Error Improvement as a Tractable Intrinsic Reward for World Model Training

Curiosity-Critic presenta una recompensa intrínseca para el entrenamiento de modelos de mundo, centrada en la mejora del error de predicción acumulativo en lugar de solo las transiciones actuales. Utiliza un crítico aprendido para estimar una línea base de error asintótico, separando eficazmente los errores epistémicos de los aleatorios y dirigiendo la exploración hacia transiciones aprendibles.

Epistemic Uncertainty reinforcement learning World Models curiosity