RESEARCH27
Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant
arXiv CS.LG·12 mai 2026
Cette recherche analyse trois schémas de quantification de cache KV (KV, KQV, QKQV) et leur impact sur la variance du produit interne, en particulier comment QJL sur K l'augmente, amplifié par softmax. Les résultats empiriques soulignent la performance supérieure de KQV avec un budget de n=4, une assymétrie K-V inconditionnelle où QKQV est systématiquement moins bon que KQV en divergence KL, et des croisements dépendants du budget pour la reconstruction géométrique de K.
Lire l'original ↗