heapsort
RESEARCH27

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

arXiv CS.LG·12 de maio de 2026

Esta pesquisa analisa três esquemas de quantização de cache KV (KV, KQV, QKQV) e seu impacto na variância do produto interno, especialmente como o QJL em K a infla, amplificado pelo softmax. Descobertas empíricas destacam o desempenho superior do KQV com um orçamento de n=4, uma assimetria K-V incondicional onde QKQV é consistentemente pior que KQV na divergência KL, e cruzamentos dependentes do orçamento para a reconstrução geométrica de K.

Ler original