heapsort
RESEARCH27

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

arXiv CS.LG·15. Mai 2026

Dieses Papier stellt TraFL vor, einen neuartigen Nach-Trainings-Ansatz für Diffusionssprachmodelle, der das "Trajektoriensperren" bei belohnungsmaximierenden Methoden adressiert. TraFL, ein Trajektorien-Balance-Ziel, übertrifft andere Methoden in Benchmarks für mathematisches Denken und Codegenerierung.

Original lesen