RESEARCH28

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

arXiv CS.LG·6 de abril de 2026

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

diffusion modelslanguage modelscomputational efficiencydenoisingMDLMsmodel schedulingTransformers

Ler original ↗