heapsort
RESEARCH27

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

arXiv CS.LG·15 de maio de 2026

Este artigo apresenta TraFL, uma nova abordagem de pós-treinamento para modelos de linguagem de difusão que aborda o "travamento de trajetória" encontrado em métodos de maximização de recompensa. TraFL, um objetivo de equilíbrio de trajetória, supera outros métodos em benchmarks de raciocínio matemático e geração de código.

Ler original