RESEARCH29
RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory
arXiv CS.LG·11. Mai 2026
Dieses Papier stellt RateQuant vor, eine Methode zur optimalen gemischt-präzisen KV-Cache-Quantisierung in großen Sprachmodellen, um Speicherengpässe zu beheben. Es befasst sich mit dem Problem der Diskrepanz des Distorsionsmodells, bei dem die Anwendung des Distorsionsmodells eines Quantisierers auf einen anderen die Leistung im Vergleich zur gleichmäßigen Quantisierung verschlechtert.
Original lesen ↗