RESEARCH27

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

arXiv CS.LG·25 mai 2026

Cet article introduit Tensor Cache, un cache à deux niveaux pour les Transformers, conçu pour optimiser les caches KV. Il associe une attention softmax à fenêtre glissante (L1) à une mémoire de poids rapide à produit extérieur de taille fixe (L2) pour gérer les tokens expulsés, améliorant l'accès aux preuves pertinentes en dehors de la fenêtre de contexte.

Associative Memory deep learning AI Caching Transformers

Lire l'original ↗