heapsort
RESEARCH29

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

arXiv CS.LG·28. April 2026

Diese Arbeit behandelt den erheblichen Speicherbedarf von Key-Value (KV)-Caching in Transformer-Sprachmodellen und schlägt eine Optimierung entlang der Tiefen-Dimension vor. Sie stellt eine Methode zum schichtübergreifenden Cache-Sharing vor, die zeigt, dass das Löschen des Caches einer Schicht effizient ohne Informationsverlust sein kann, und schlägt einen Trainingsansatz mit zufälliger schichtübergreifender Aufmerksamkeit vor.

Original lesen