RESEARCH27
LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models
arXiv CS.CL·15 de abril de 2026
LoSA propõe uma atenção esparsa com consciência de localidade para resolver o gargalo de memória e o problema de KV Inflation em modelos de linguagem de difusão por blocos. A técnica reutiliza resultados de atenção armazenados em cache para tokens estáveis e aplica atenção esparsa apenas a tokens ativos, otimizando velocidade e precisão em contextos longos.
Ler original ↗