RESEARCH27

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

arXiv CS.LG·13 de maio de 2026

Modelos de Linguagem de Difusão (dLLMs) enfrentam limites de escalabilidade no paralelismo devido a limiares de confiança excessivamente conservadores que restringem seu potencial de processamento altamente paralelo. Este artigo apresenta o LEAP, um método plug-and-play sem treinamento que melhora o paralelismo dos dLLMs detectando tokens de convergência precoce, acelerando assim a decodificação.

Diffusion Models Parallel Computing AI large language models model optimization

Ler original ↗