RESEARCH27

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

arXiv CS.LG·25 de mayo de 2026

El artículo presenta Tensor Cache, una caché de dos niveles para Transformers que optimiza las cachés KV. Combina la atención softmax de ventana deslizante (L1) con una memoria de peso rápido de producto externo de tamaño fijo (L2) para gestionar los tokens desalojados, mejorando el acceso a evidencia relevante fuera de la ventana de contexto.

Associative Memory deep learning AI Caching Transformers

Leer original ↗