RESEARCHarXiv CS.CL·4/15/2026
LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models
LoSA führt Locality Aware Sparse Attention ein, um speichergebundene Aufmerksamkeit und das KV-Inflationsproblem in blockweisen Diffusions-Sprachmodellen, insbesondere bei langen Kontexten, zu beheben. Es optimiert die Leistung durch Wiederverwendung von zwischengespeicherter Aufmerksamkeit für stabile Tokens und Anwenden von Sparse Attention nur auf aktive Tokens, wodurch die KV-Index-Ladung erheblich reduziert wird.
27