← heapsort-ai

statistical inference

2 items

RESEARCHarXiv CS.LG·il y a 29j

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

Cette recherche analyse trois schémas de quantification de cache KV (KV, KQV, QKQV) et leur impact sur la variance du produit interne, en particulier comment QJL sur K l'augmente, amplifié par softmax. Les résultats empiriques soulignent la performance supérieure de KQV avec un budget de n=4, une assymétrie K-V inconditionnelle où QKQV est systématiquement moins bon que KQV en divergence KL, et des croisements dépendants du budget pour la reconstruction géométrique de K.

27