RESEARCH27

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

arXiv CS.LG·20. April 2026

Diese Forschung stellt die sequentielle KV-Kompression vor, eine neuartige zweischichtige Architektur für Transformer-Schlüssel-Wert-Caches, die die pro-Vektor-Shannon-Grenze übertrifft. Sie nutzt die sequentielle Natur von KV-Cache-Tokens mittels probabilistischer Präfix-Deduplizierung und prädiktiver Delta-Kodierung für effizientere Kompression.

Transformer Architecture AI models LLMs data compression model optimization

Original lesen ↗