RESEARCH27

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

arXiv CS.CL·15 de abril de 2026

LoSA propõe uma atenção esparsa com consciência de localidade para resolver o gargalo de memória e o problema de KV Inflation em modelos de linguagem de difusão por blocos. A técnica reutiliza resultados de atenção armazenados em cache para tokens estáveis e aplica atenção esparsa apenas a tokens ativos, otimizando velocidade e precisão em contextos longos.

Memory Optimization Long Context KV Inflation sparse attention Diffusion Language Models

Ler original ↗