RESEARCH27
Tensor Cache: Eviction-conditioned Associative Memory for Transformers
arXiv CS.LG·25 de mayo de 2026
El artículo presenta Tensor Cache, una caché de dos niveles para Transformers que optimiza las cachés KV. Combina la atención softmax de ventana deslizante (L1) con una memoria de peso rápido de producto externo de tamaño fijo (L2) para gestionar los tokens desalojados, mejorando el acceso a evidencia relevante fuera de la ventana de contexto.
Leer original ↗