RESEARCH27
Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit
arXiv CS.LG·20 de abril de 2026
Esta pesquisa apresenta a compressão sequencial de KV, uma nova arquitetura de duas camadas para caches de chave-valor de transformadores que supera o limite de Shannon por vetor. Ela explora a natureza sequencial dos tokens do cache KV, utilizando deduplicação probabilística de prefixos e codificação delta preditiva para compressão mais eficiente.
Ler original ↗