RESEARCHarXiv CS.CL·1d atrás
Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation
Este artigo apresenta o Modelo de Linguagem de Difusão On-Policy (OPDLM) para transformar modelos autorregressivos (ARLMs) em modelos de linguagem de difusão (DLMs). Ele aborda problemas como a perda de conhecimento e a incompatibilidade entre treinamento e inferência, empregando a Destilação On-Policy (OPD).
60