RESEARCH27
PROWL: Prioritized Regret-Driven Optimization for World Model Learning
arXiv CS.LG·20. Mai 2026
PROWL führt ein KL-beschränktes adversarielles Curriculum ein, bei dem eine Policy fehlerintensive Trajektorien eines diffusionsbasierten Weltmodells aufdeckt. Diese Methode verbessert die Modellrobustheit, indem sie sich auf seltene, interaktionskritische Übergänge konzentriert und Fehler in ein stabiles, verteilungsnahes Trainingssignal umwandelt, ohne in Out-of-Distribution-Exploitation abzudriften.
Original lesen ↗