RESEARCH60

Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

arXiv CS.CL·8 de junho de 2026

Este artigo apresenta o Modelo de Linguagem de Difusão On-Policy (OPDLM) para transformar modelos autorregressivos (ARLMs) em modelos de linguagem de difusão (DLMs). Ele aborda problemas como a perda de conhecimento e a incompatibilidade entre treinamento e inferência, empregando a Destilação On-Policy (OPD).

Diffusion Models language models AI models machine learning on-policy distillation

Ler original ↗