KV Inflation — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·15/04/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA propõe uma atenção esparsa com consciência de localidade para resolver o gargalo de memória e o problema de KV Inflation em modelos de linguagem de difusão por blocos. A técnica reutiliza resultados de atenção armazenados em cache para tokens estáveis e aplica atenção esparsa apenas a tokens ativos, otimizando velocidade e precisão em contextos longos.

Memory Optimization Long Context KV Inflation sparse attention