RESEARCH27

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

arXiv CS.LG·13 mai 2026

Les Modèles de Langage de Diffusion (dLLMs) rencontrent des limites de scalabilité dans le parallélisme en raison de seuils de confiance excessivement conservateurs qui entravent leur potentiel de traitement hautement parallèle. Cet article présente LEAP, une méthode plug-and-play sans entraînement qui améliore le parallélisme des dLLMs en détectant les jetons à convergence précoce, accélérant ainsi le décodage.

Diffusion Models Parallel Computing AI large language models model optimization

Lire l'original ↗