RESEARCH27
Tensor Cache: Eviction-conditioned Associative Memory for Transformers
arXiv CS.LG·25 de maio de 2026
O artigo apresenta o Tensor Cache, um cache de dois níveis para Transformers que otimiza as caches KV. Ele combina atenção softmax de janela deslizante (L1) com uma memória de produto externo de tamanho fixo (L2) para gerenciar tokens desalojados, melhorando o acesso a evidências relevantes fora da janela de contexto.
Ler original ↗