RESEARCH29
Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing
arXiv CS.LG·28 avril 2026
Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.
Lire l'original ↗