RESEARCH27
Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models
arXiv CS.LG·15. Mai 2026
Dieses Papier stellt TraFL vor, einen neuartigen Nach-Trainings-Ansatz für Diffusionssprachmodelle, der das "Trajektoriensperren" bei belohnungsmaximierenden Methoden adressiert. TraFL, ein Trajektorien-Balance-Ziel, übertrifft andere Methoden in Benchmarks für mathematisches Denken und Codegenerierung.
Original lesen ↗