RESEARCH27

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

arXiv CS.LG·13 de mayo de 2026

Los Modelos de Lenguaje de Difusión (dLLMs) encuentran límites de escalabilidad en el paralelismo debido a umbrales de confianza excesivamente conservadores que restringen su potencial de procesamiento altamente paralelo. Este artículo introduce LEAP, un método plug-and-play sin entrenamiento que mejora el paralelismo de los dLLMs al detectar tokens de convergencia temprana, acelerando así la decodificación.

Diffusion Models Parallel Computing AI large language models model optimization

Leer original ↗