heapsort
RESEARCH60

Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

arXiv CS.CL·8 juin 2026

Cet article présente le modèle de langage de diffusion on-policy (OPDLM) pour transformer les modèles autorégressifs (ARLMs) en modèles de langage de diffusion (DLMs). Il aborde les problèmes tels que la perte de connaissances et l'inadéquation entre l'entraînement et l'inférence en utilisant la distillation on-policy (OPD).

Lire l'original