RESEARCH27
LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models
arXiv CS.CL·15 de abril de 2026
LoSA presenta una atención esparsa consciente de la localidad para abordar el cuello de botella de la atención ligada a la memoria y el problema de KV Inflation en modelos de lenguaje de difusión por bloques. Reutiliza resultados de atención en caché para tokens estables y aplica atención esparsa solo a tokens activos, mejorando significativamente la velocidad y la precisión.
Leer original ↗