Random matrix theory — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·06/05/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

O eOptShrinkQ é um pipeline de compressão de duas fases para cache KV em cabeças de atenção de transformadores. Ele utiliza encolhimento de valor singular ideal e quantização escalar por vetor, fundamentado na teoria de matrizes aleatórias, para obter compressão quase sem perdas e melhorar a reconstrução.

quantization Random matrix theory AI compression KV cache