heapsort
RESEARCH27

Statistical Inference and Quality Measures of KV Cache Quantisations Inspired by TurboQuant

arXiv CS.LG·12. Mai 2026

Diese Forschung analysiert drei KV-Cache-Quantisierungsschemata (KV, KQV, QKQV) und deren Einfluss auf die Varianz des inneren Produkts, insbesondere wie QJL auf K diese aufbläht, verstärkt durch Softmax. Empirische Ergebnisse heben die überlegene Leistung von KQV bei einem Budget von n=4 hervor, eine bedingungslose K-V-Asymmetrie, bei der QKQV in der KL-Divergenz durchweg schlechter ist als KQV, und budgetabhängige Überschneidungen für die geometrische K-Rekonstruktion.

Original lesen