RESEARCH27
Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models
arXiv CS.LG·15 de maio de 2026
Este artigo apresenta TraFL, uma nova abordagem de pós-treinamento para modelos de linguagem de difusão que aborda o "travamento de trajetória" encontrado em métodos de maximização de recompensa. TraFL, um objetivo de equilíbrio de trajetória, supera outros métodos em benchmarks de raciocínio matemático e geração de código.
Ler original ↗