← heapsort-ai

Random matrix theory

1 items

RESEARCHarXiv CS.LG·5/6/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ ist eine zweistufige Kompressionspipeline für den KV-Cache in Transformer-Aufmerksamkeitsköpfen. Sie nutzt optimale Singulärwertschrumpfung und per-Vektor-Skalarquantisierung, basierend auf der Theorie der Zufallsmatrizen, um eine nahezu verlustfreie Kompression zu erreichen und die Rekonstruktion zu verbessern.

29