Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation
Este artículo presenta el Modelo de Lenguaje de Difusión On-Policy (OPDLM) para transformar modelos autorregresivos (ARLMs) en modelos de lenguaje de difusión (DLMs). Aborda problemas como la pérdida de conocimiento y el desajuste entre entrenamiento e inferencia mediante el uso de la Destilación On-Policy (OPD).


