RESEARCH27
Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit
arXiv CS.LG·20. April 2026
Diese Forschung stellt die sequentielle KV-Kompression vor, eine neuartige zweischichtige Architektur für Transformer-Schlüssel-Wert-Caches, die die pro-Vektor-Shannon-Grenze übertrifft. Sie nutzt die sequentielle Natur von KV-Cache-Tokens mittels probabilistischer Präfix-Deduplizierung und prädiktiver Delta-Kodierung für effizientere Kompression.
Original lesen ↗