← heapsort-ai

sparse attention

2 items

RESEARCHarXiv CS.CL·4/15/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA führt Locality Aware Sparse Attention ein, um speichergebundene Aufmerksamkeit und das KV-Inflationsproblem in blockweisen Diffusions-Sprachmodellen, insbesondere bei langen Kontexten, zu beheben. Es optimiert die Leistung durch Wiederverwendung von zwischengespeicherter Aufmerksamkeit für stabile Tokens und Anwenden von Sparse Attention nur auf aktive Tokens, wodurch die KV-Index-Ladung erheblich reduziert wird.

27