heapsort
RESEARCH27

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

arXiv CS.LG·12 de mayo de 2026

Esta investigación analiza tres esquemas de cuantificación de caché KV (KV, KQV, QKQV) y su impacto en la varianza del producto interno, especialmente cómo QJL en K la infla, amplificado por softmax. Los hallazgos empíricos resaltan el rendimiento superior de KQV con un presupuesto de n=4, una asimetría K-V incondicional donde QKQV es consistentemente peor que KQV en la divergencia KL, y cruces dependientes del presupuesto para la reconstrucción geométrica de K.

Leer original