RESEARCH28
TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference
arXiv CS.CL·23 avril 2026
TTKV propose un cadre de gestion de cache KV à niveaux temporels pour les LLM, inspiré de la mémoire humaine, afin de résoudre le problème de l'échelle linéaire de la mémoire du cache KV. Il partitionne le cache en niveaux avec une capacité et une précision hétérogènes, attribuant les états KV plus récents aux niveaux plus rapides et de plus haute précision.
Lire l'original ↗