RESEARCH27
Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit
arXiv CS.LG·20 de abril de 2026
Esta investigación introduce la compresión secuencial de KV, una novedosa arquitectura de dos capas para caches de clave-valor de transformadores que supera el límite de Shannon por vector. Aprovecha la naturaleza secuencial de los tokens del cache KV, utilizando la deduplicación probabilística de prefijos y la codificación delta predictiva para una compresión más eficiente.
Leer original ↗