RESEARCH29
RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory
arXiv CS.LG·11 de maio de 2026
Este artigo propõe o RateQuant, um método para otimização da quantização do cache KV em modelos de linguagem grandes, visando resolver o gargalo de memória. Ele aborda o problema da atribuição de precisão mista, onde a incompatibilidade do modelo de distorção pode piorar o desempenho em relação à quantização uniforme.
Ler original ↗