RESEARCH27

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

arXiv CS.LG·20 de abril de 2026

Esta pesquisa apresenta a compressão sequencial de KV, uma nova arquitetura de duas camadas para caches de chave-valor de transformadores que supera o limite de Shannon por vetor. Ela explora a natureza sequencial dos tokens do cache KV, utilizando deduplicação probabilística de prefixos e codificação delta preditiva para compressão mais eficiente.

Transformer Architecture AI models LLMs data compression model optimization

Ler original ↗