heapsort
RESEARCH27

Beyond Mode-Seeking RL: Trajectory-Balance Post-Training for Diffusion Language Models

arXiv CS.LG·15 de mayo de 2026

Este artículo presenta TraFL, un nuevo enfoque de post-entrenamiento para modelos de lenguaje de difusión que aborda el "bloqueo de trayectoria" encontrado en métodos de maximización de recompensa. TraFL, un objetivo de equilibrio de trayectoria, supera a otros métodos en benchmarks de razonamiento matemático y generación de código.

Leer original