heapsort
RESEARCH27

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

arXiv CS.LG·25 mai 2026

Cet article introduit Tensor Cache, un cache à deux niveaux pour les Transformers, conçu pour optimiser les caches KV. Il associe une attention softmax à fenêtre glissante (L1) à une mémoire de poids rapide à produit extérieur de taille fixe (L2) pour gérer les tokens expulsés, améliorant l'accès aux preuves pertinentes en dehors de la fenêtre de contexte.

Lire l'original