RESEARCH27
Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models
arXiv CS.LG·15 de mayo de 2026
Este artículo presenta TraFL, un nuevo enfoque de post-entrenamiento para modelos de lenguaje de difusión que aborda el "bloqueo de trayectoria" encontrado en métodos de maximización de recompensa. TraFL, un objetivo de equilibrio de trayectoria, supera a otros métodos en benchmarks de razonamiento matemático y generación de código.
Leer original ↗