RESEARCHarXiv CS.LG·il y a 20j
PROWL: Prioritized Regret-Driven Optimization for World Model Learning
PROWL introduit un programme adversarial contraint par KL où une politique expose des trajectoires à forte erreur d'un modèle du monde basé sur la diffusion. Cette méthode améliore la robustesse du modèle en se concentrant sur les transitions rares et critiques pour l'interaction, transformant les échecs en un signal d'entraînement stable sans dériver vers l'exploitation hors distribution.
27