RESEARCH60
Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation
arXiv CS.CL·8 de junho de 2026
Este artigo apresenta o Modelo de Linguagem de Difusão On-Policy (OPDLM) para transformar modelos autorregressivos (ARLMs) em modelos de linguagem de difusão (DLMs). Ele aborda problemas como a perda de conhecimento e a incompatibilidade entre treinamento e inferência, empregando a Destilação On-Policy (OPD).
Ler original ↗