RESEARCH27

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

arXiv CS.CL·15 de abril de 2026

LoSA presenta una atención esparsa consciente de la localidad para abordar el cuello de botella de la atención ligada a la memoria y el problema de KV Inflation en modelos de lenguaje de difusión por bloques. Reutiliza resultados de atención en caché para tokens estables y aplica atención esparsa solo a tokens activos, mejorando significativamente la velocidad y la precisión.

Memory Optimization Long Context KV Inflation sparse attention Diffusion Language Models

Leer original ↗