RESEARCH28

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

arXiv CS.CL·23 avril 2026

TTKV propose un cadre de gestion de cache KV à niveaux temporels pour les LLM, inspiré de la mémoire humaine, afin de résoudre le problème de l'échelle linéaire de la mémoire du cache KV. Il partitionne le cache en niveaux avec une capacité et une précision hétérogènes, attribuant les états KV plus récents aux niveaux plus rapides et de plus haute précision.

neural networks LLMs memory management Inference Optimization

Lire l'original ↗