RESEARCH29

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

arXiv CS.LG·11 de mayo de 2026

Este artículo propone RateQuant, un método para la cuantificación óptima de caché KV de precisión mixta en grandes modelos de lenguaje para abordar los cuellos de botella de memoria. Aborda el desafío de la desajuste del modelo de distorsión, donde aplicar el modelo de distorsión de un cuantificador a otro degrada el rendimiento en comparación con la cuantificación uniforme.

Memory Optimization quantization AI Research LLM

Leer original ↗