RESEARCH27
TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment
arXiv CS.LG·13 de mayo de 2026
Trajectory Matching Policy Optimization (TMPO) aborda el problema de la recompensa excesiva en el aprendizaje por refuerzo para modelos de difusión, que a menudo causa colapso de modo y degrada la diversidad generativa. Sustituye la maximización de la recompensa escalar por la coincidencia de la distribución de recompensa a nivel de trayectoria, utilizando un objetivo de Softmax Trajectory Balance para alinear las probabilidades de la política con una distribución de Boltzmann inducida por la recompensa.
Leer original ↗