heapsort
RESEARCH27

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

arXiv CS.LG·20 de maio de 2026

PROWL introduz um currículo adversarial com restrição KL para treinar políticas que expõem trajetórias de alto erro de modelos de mundo baseados em difusão. Este método melhora a robustez dos modelos ao focar em transições críticas e raras, convertendo falhas em um sinal de treinamento estável sem desviar para exploração fora da distribuição.

Ler original