RESEARCHarXiv CS.LG·20d atrás
PROWL: Prioritized Regret-Driven Optimization for World Model Learning
PROWL introduz um currículo adversarial com restrição KL para treinar políticas que expõem trajetórias de alto erro de modelos de mundo baseados em difusão. Este método melhora a robustez dos modelos ao focar em transições críticas e raras, convertendo falhas em um sinal de treinamento estável sem desviar para exploração fora da distribuição.
27