Diffusion Language Models

2 items

RESEARCHarXiv CS.CL·6/4/2026

Dependency-Guided Parallel Decoding in Discrete Diffusion Language Models

Modelos de linguagem de difusão discreta (dLLMs) aceleram a geração de texto, mas a decodificação paralela degrada a qualidade ao desconsiderar a dependência entre tokens. DEMASK propõe um preditor leve que estima influências condicionais para guiar o desmascaramento simultâneo, comprovadamente melhorando a qualidade. A técnica resulta em um ganho de velocidade de 1.7 a 2.2x, mantendo ou superando o desempenho.

Dependency Prediction DEMASK Parallel Decoding machine learning

RESEARCHarXiv CS.CL·15/4/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA presenta una atención esparsa consciente de la localidad para abordar el cuello de botella de la atención ligada a la memoria y el problema de KV Inflation en modelos de lenguaje de difusión por bloques. Reutiliza resultados de atención en caché para tokens estables y aplica atención esparsa solo a tokens activos, mejorando significativamente la velocidad y la precisión.

Memory Optimization Long Context KV Inflation sparse attention