heapsort
RESEARCH27

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

arXiv CS.LG·15 mai 2026

Cet article présente TraFL, une nouvelle approche de post-entraînement pour les modèles de langage de diffusion qui s'attaque au "blocage de trajectoire" observé dans les méthodes de maximisation de récompense. TraFL, un objectif d'équilibre de trajectoire, surpasse les autres méthodes sur les benchmarks de raisonnement mathématique et de génération de code.

Lire l'original