RESEARCH29

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

arXiv CS.LG·11 mai 2026

Cet article présente RateQuant, une méthode pour l'optimisation de la quantification du cache KV à précision mixte dans les grands modèles linguistiques afin de résoudre les goulots d'étranglement de la mémoire. Il s'attaque au problème de l'inadéquation du modèle de distorsion, où l'application du modèle de distorsion d'un quantificateur à un autre dégrade les performances par rapport à la quantification uniforme.

Memory Optimization quantization AI Research LLM

Lire l'original ↗