RESEARCHarXiv CS.LG·5/6/2026
eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization
eOptShrinkQ ist eine zweistufige Kompressionspipeline für den KV-Cache in Transformer-Aufmerksamkeitsköpfen. Sie nutzt optimale Singulärwertschrumpfung und per-Vektor-Skalarquantisierung, basierend auf der Theorie der Zufallsmatrizen, um eine nahezu verlustfreie Kompression zu erreichen und die Rekonstruktion zu verbessern.
29
