KV Inflation — artículos, noticias e investigación de IA

RESEARCHarXiv CS.CL·15/4/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA presenta una atención esparsa consciente de la localidad para abordar el cuello de botella de la atención ligada a la memoria y el problema de KV Inflation en modelos de lenguaje de difusión por bloques. Reutiliza resultados de atención en caché para tokens estables y aplica atención esparsa solo a tokens activos, mejorando significativamente la velocidad y la precisión.

Memory Optimization Long Context KV Inflation sparse attention