model learning — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·20d atrás

PROWL: Prioritized Regret-Driven Optimization for World Model Learning

PROWL introduz um currículo adversarial com restrição KL para treinar políticas que expõem trajetórias de alto erro de modelos de mundo baseados em difusão. Este método melhora a robustez dos modelos ao focar em transições críticas e raras, convertendo falhas em um sinal de treinamento estável sem desviar para exploração fora da distribuição.

reinforcement learning model learning security World Models