RESEARCH29

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

arXiv CS.LG·28 avril 2026

Ce travail s'attaque à l'empreinte mémoire importante du caching Key-Value (KV) dans les modèles de transformateur, proposant une optimisation via la dimension de profondeur. Il introduit une méthode de partage de cache inter-couches, montrant que la suppression du cache d'une couche peut être efficace sans perte d'information, et suggère une approche d'entraînement avec attention croisée aléatoire.

deep learning Memory Optimization large language models Transformers

Lire l'original ↗