RESEARCH27

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

arXiv CS.LG·13 de maio de 2026

O Trajectory Matching Policy Optimization (TMPO) aborda o problema de recompensa excessiva em modelos de difusão por reforço, que frequentemente causam colapso de modo e reduzem a diversidade generativa. Ele substitui a maximização de recompensa escalar pelo ajuste da distribuição de recompensa em nível de trajetória, utilizando um objetivo de Softmax Trajectory Balance para alinhar as probabilidades da política com uma distribuição de Boltzmann induzida por recompensa.

Diffusion Models reinforcement learning AI alignment Generative AI

Ler original ↗