RESEARCH27
TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment
arXiv CS.LG·13. Mai 2026
Trajectory Matching Policy Optimization (TMPO) begegnet dem Problem des Reward Hacking im Reinforcement Learning für Diffusionsmodelle, welches oft zum Modenkollaps führt und die generative Diversität mindert. Es ersetzt die skalare Belohnungsmaximierung durch das Abgleichen der Belohnungsverteilung auf Trajektorien-Ebene, indem es ein Softmax Trajectory Balance-Ziel verwendet, um die Policy-Wahrscheinlichkeiten mit einer belohnungsinduzierten Boltzmann-Verteilung in Einklang zu bringen.
Original lesen ↗