RESEARCHarXiv CS.CL·15/4/2026
LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models
LoSA presenta una atención esparsa consciente de la localidad para abordar el cuello de botella de la atención ligada a la memoria y el problema de KV Inflation en modelos de lenguaje de difusión por bloques. Reutiliza resultados de atención en caché para tokens estables y aplica atención esparsa solo a tokens activos, mejorando significativamente la velocidad y la precisión.
27