RESEARCH27

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

arXiv CS.LG·25. Mai 2026

Dieses Papier stellt Tensor Cache vor, einen zweistufigen Cache für Transformatoren zur Optimierung von KV-Caches. Er kombiniert Sliding-Window-Softmax-Attention (L1) mit einem festgroßen Outer-Product-Fast-Weight-Memory (L2) zur Verwaltung entfernter Token und verbessert den Zugriff auf relevante Informationen außerhalb des Kontextfensters.

Associative Memory deep learning AI Caching Transformers

Original lesen ↗