RESEARCH29
eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization
arXiv CS.LG·6 mai 2026
eOptShrinkQ est un pipeline de compression en deux étapes pour le cache KV dans les têtes d'attention des transformateurs. Il utilise le rétrécissement optimal des valeurs singulières et la quantification scalaire par vecteur, basée sur la théorie des matrices aléatoires, pour obtenir une compression quasi sans perte et améliorer la reconstruction.
Lire l'original ↗