heapsort
RESEARCH27

TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

arXiv CS.LG·13. Mai 2026

Trajectory Matching Policy Optimization (TMPO) begegnet dem Problem des Reward Hacking im Reinforcement Learning für Diffusionsmodelle, welches oft zum Modenkollaps führt und die generative Diversität mindert. Es ersetzt die skalare Belohnungsmaximierung durch das Abgleichen der Belohnungsverteilung auf Trajektorien-Ebene, indem es ein Softmax Trajectory Balance-Ziel verwendet, um die Policy-Wahrscheinlichkeiten mit einer belohnungsinduzierten Boltzmann-Verteilung in Einklang zu bringen.

Original lesen