← heapsort-ai

data compression

3 items

RESEARCHarXiv CS.LG·4/20/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

This research introduces sequential KV compression, a novel two-layer architecture for transformer key-value caches that surpasses the per-vector Shannon limit. It leverages the sequential nature of KV cache tokens, using probabilistic prefix deduplication with language tries and predictive delta coding to achieve more efficient compression.

27
RESEARCHarXiv CS.LG·4/9/2026

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

27