RESEARCH27
Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit
arXiv CS.LG·20 avril 2026
Cette recherche présente la compression séquentielle de KV, une nouvelle architecture à deux couches pour les caches clé-valeur des transformateurs qui dépasse la limite de Shannon par vecteur. Elle exploite la nature séquentielle des tokens de cache KV, utilisant la déduplication de préfixes probabiliste et le codage delta prédictif pour une compression plus efficace.
Lire l'original ↗