model learning — articles, actualités et recherches IA

RESEARCHarXiv CS.LG·il y a 20j

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduit un programme adversarial contraint par KL où une politique expose des trajectoires à forte erreur d'un modèle du monde basé sur la diffusion. Cette méthode améliore la robustesse du modèle en se concentrant sur les transitions rares et critiques pour l'interaction, transformant les échecs en un signal d'entraînement stable sans dériver vers l'exploitation hors distribution.

reinforcement learning model learning security World Models