RESEARCH28

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

arXiv CS.CL·23 de abril de 2026

TTKV propõe uma estrutura de gerenciamento de cache KV com camadas temporais para LLMs, inspirada na memória humana, para resolver a escala linear da memória do cache KV. Ele particiona o cache em camadas com capacidade e precisão heterogêneas, atribuindo estados KV mais recentes a camadas mais rápidas e de maior precisão.

neural networks LLMs memory management Inference Optimization

Ler original ↗