RESEARCH27
Tensor Cache: Eviction-conditioned Associative Memory for Transformers
arXiv CS.LG·25. Mai 2026
Dieses Papier stellt Tensor Cache vor, einen zweistufigen Cache für Transformatoren zur Optimierung von KV-Caches. Er kombiniert Sliding-Window-Softmax-Attention (L1) mit einem festgroßen Outer-Product-Fast-Weight-Memory (L2) zur Verwaltung entfernter Token und verbessert den Zugriff auf relevante Informationen außerhalb des Kontextfensters.
Original lesen ↗