RESEARCH29

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

arXiv CS.LG·6 mai 2026

eOptShrinkQ est un pipeline de compression en deux étapes pour le cache KV dans les têtes d'attention des transformateurs. Il utilise le rétrécissement optimal des valeurs singulières et la quantification scalaire par vecteur, basée sur la théorie des matrices aléatoires, pour obtenir une compression quasi sans perte et améliorer la reconstruction.

quantization Random matrix theory AI compression KV cache Transformers

Lire l'original ↗