RESEARCH27

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

arXiv CS.LG·25 de maio de 2026

O artigo apresenta o Tensor Cache, um cache de dois níveis para Transformers que otimiza as caches KV. Ele combina atenção softmax de janela deslizante (L1) com uma memória de produto externo de tamanho fixo (L2) para gerenciar tokens desalojados, melhorando o acesso a evidências relevantes fora da janela de contexto.

Associative Memory deep learning AI Caching Transformers

Ler original ↗