RESEARCH29

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

arXiv CS.LG·6. Mai 2026

eOptShrinkQ ist eine zweistufige Kompressionspipeline für den KV-Cache in Transformer-Aufmerksamkeitsköpfen. Sie nutzt optimale Singulärwertschrumpfung und per-Vektor-Skalarquantisierung, basierend auf der Theorie der Zufallsmatrizen, um eine nahezu verlustfreie Kompression zu erreichen und die Rekonstruktion zu verbessern.

quantization Random matrix theory AI compression KV cache Transformers

Original lesen ↗