RESEARCH27

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

arXiv CS.LG·13 mai 2026

Le Trajectory Matching Policy Optimization (TMPO) s'attaque au piratage des récompenses dans l'apprentissage par renforcement pour les modèles de diffusion, qui entraîne souvent un effondrement des modes et dégrade la diversité générative. Il remplace la maximisation de la récompense scalaire par l'appariement de la distribution de récompense au niveau de la trajectoire, en utilisant un objectif de Softmax Trajectory Balance pour aligner les probabilités de la politique avec une distribution de Boltzmann induite par la récompense.

Diffusion Models reinforcement learning AI alignment Generative AI

Lire l'original ↗