RESEARCH27
Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant
arXiv CS.LG·12 de mayo de 2026
Esta investigación analiza tres esquemas de cuantificación de caché KV (KV, KQV, QKQV) y su impacto en la varianza del producto interno, especialmente cómo QJL en K la infla, amplificado por softmax. Los hallazgos empíricos resaltan el rendimiento superior de KQV con un presupuesto de n=4, una asimetría K-V incondicional donde QKQV es consistentemente peor que KQV en la divergencia KL, y cruces dependientes del presupuesto para la reconstrucción geométrica de K.
Leer original ↗