heapsort
RESEARCH27

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

arXiv CS.LG·20. Mai 2026

PROWL führt ein KL-beschränktes adversarielles Curriculum ein, bei dem eine Policy fehlerintensive Trajektorien eines diffusionsbasierten Weltmodells aufdeckt. Diese Methode verbessert die Modellrobustheit, indem sie sich auf seltene, interaktionskritische Übergänge konzentriert und Fehler in ein stabiles, verteilungsnahes Trainingssignal umwandelt, ohne in Out-of-Distribution-Exploitation abzudriften.

Original lesen