← heapsort-ai

KV Inflation

1 items

RESEARCHarXiv CS.CL·15/04/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA propõe uma atenção esparsa com consciência de localidade para resolver o gargalo de memória e o problema de KV Inflation em modelos de linguagem de difusão por blocos. A técnica reutiliza resultados de atenção armazenados em cache para tokens estáveis e aplica atenção esparsa apenas a tokens ativos, otimizando velocidade e precisão em contextos longos.

27