heapsort
RESEARCH27

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

arXiv CS.LG·20 mai 2026

PROWL introduit un programme adversarial contraint par KL où une politique expose des trajectoires à forte erreur d'un modèle du monde basé sur la diffusion. Cette méthode améliore la robustesse du modèle en se concentrant sur les transitions rares et critiques pour l'interaction, transformant les échecs en un signal d'entraînement stable sans dériver vers l'exploitation hors distribution.

Lire l'original