RESEARCH28
TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference
arXiv CS.CL·23 de abril de 2026
TTKV propõe uma estrutura de gerenciamento de cache KV com camadas temporais para LLMs, inspirada na memória humana, para resolver a escala linear da memória do cache KV. Ele particiona o cache em camadas com capacidade e precisão heterogêneas, atribuindo estados KV mais recentes a camadas mais rápidas e de maior precisão.
Ler original ↗