RESEARCH60
Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation
arXiv CS.CL·8 juin 2026
Cet article présente le modèle de langage de diffusion on-policy (OPDLM) pour transformer les modèles autorégressifs (ARLMs) en modèles de langage de diffusion (DLMs). Il aborde les problèmes tels que la perte de connaissances et l'inadéquation entre l'entraînement et l'inférence en utilisant la distillation on-policy (OPD).
Lire l'original ↗