RESEARCH29
RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory
arXiv CS.LG·11 de mayo de 2026
Este artículo propone RateQuant, un método para la cuantificación óptima de caché KV de precisión mixta en grandes modelos de lenguaje para abordar los cuellos de botella de memoria. Aborda el desafío de la desajuste del modelo de distorsión, donde aplicar el modelo de distorsión de un cuantificador a otro degrada el rendimiento en comparación con la cuantificación uniforme.
Leer original ↗