RESEARCH27

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

arXiv CS.LG·20 de abril de 2026

Esta investigación introduce la compresión secuencial de KV, una novedosa arquitectura de dos capas para caches de clave-valor de transformadores que supera el límite de Shannon por vector. Aprovecha la naturaleza secuencial de los tokens del cache KV, utilizando la deduplicación probabilística de prefijos y la codificación delta predictiva para una compresión más eficiente.

Transformer Architecture AI models LLMs data compression model optimization

Leer original ↗