RESEARCH27

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

arXiv CS.LG·20 de mayo de 2026

PROWL introduce un currículo adversarial con restricción KL donde una política expone trayectorias de alto error de un modelo de mundo basado en difusión. Este método mejora la robustez del modelo al enfocarse en transiciones raras y críticas para la interacción, convirtiendo los fallos en una señal de entrenamiento estable sin desviarse a la explotación fuera de distribución.

reinforcement learning model learning security World Models Adversarial Training

Leer original ↗