RESEARCH27

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

arXiv CS.LG·13 de mayo de 2026

Trajectory Matching Policy Optimization (TMPO) aborda el problema de la recompensa excesiva en el aprendizaje por refuerzo para modelos de difusión, que a menudo causa colapso de modo y degrada la diversidad generativa. Sustituye la maximización de la recompensa escalar por la coincidencia de la distribución de recompensa a nivel de trayectoria, utilizando un objetivo de Softmax Trajectory Balance para alinear las probabilidades de la política con una distribución de Boltzmann inducida por la recompensa.

Diffusion Models reinforcement learning AI alignment Generative AI

Leer original ↗