RESEARCH27
TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment
arXiv CS.LG·13 mai 2026
Le Trajectory Matching Policy Optimization (TMPO) s'attaque au piratage des récompenses dans l'apprentissage par renforcement pour les modèles de diffusion, qui entraîne souvent un effondrement des modes et dégrade la diversité générative. Il remplace la maximisation de la récompense scalaire par l'appariement de la distribution de récompense au niveau de la trajectoire, en utilisant un objectif de Softmax Trajectory Balance pour aligner les probabilités de la politique avec une distribution de Boltzmann induite par la récompense.
Lire l'original ↗