RESEARCHarXiv CS.LG·06/05/2026
eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization
O eOptShrinkQ é um pipeline de compressão de duas fases para cache KV em cabeças de atenção de transformadores. Ele utiliza encolhimento de valor singular ideal e quantização escalar por vetor, fundamentado na teoria de matrizes aleatórias, para obter compressão quase sem perdas e melhorar a reconstrução.
29