RESEARCH29
RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory
arXiv CS.LG·11 mai 2026
Cet article présente RateQuant, une méthode pour l'optimisation de la quantification du cache KV à précision mixte dans les grands modèles linguistiques afin de résoudre les goulots d'étranglement de la mémoire. Il s'attaque au problème de l'inadéquation du modèle de distorsion, où l'application du modèle de distorsion d'un quantificateur à un autre dégrade les performances par rapport à la quantification uniforme.
Lire l'original ↗