← heapsort-ai

Random matrix theory

1 items

RESEARCHarXiv CS.LG·6/5/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ es un pipeline de compresión de dos etapas para la caché KV en cabezas de atención de transformadores. Utiliza la contracción óptima de valores singulares y la cuantificación escalar por vector, basada en la teoría de matrices aleatorias, para lograr una compresión casi sin pérdidas y mejorar la reconstrucción.

29