RESEARCH29

RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory

arXiv CS.LG·11 de maio de 2026

Este artigo propõe o RateQuant, um método para otimização da quantização do cache KV em modelos de linguagem grandes, visando resolver o gargalo de memória. Ele aborda o problema da atribuição de precisão mista, onde a incompatibilidade do modelo de distorção pode piorar o desempenho em relação à quantização uniforme.

Memory Optimization quantization AI Research LLM

Ler original ↗