RESEARCH28
TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference
arXiv CS.CL·23. April 2026
TTKV schlägt ein zeitlich gestaffeltes KV-Cache-Management-Framework für LLMs vor, das von menschlichen Gedächtnissystemen inspiriert ist, um das Problem der linearen Skalierung des KV-Cache-Speichers zu lösen. Es teilt den Cache in Schichten mit heterogener Kapazität und Präzision auf, wobei neuere KV-Zustände schnelleren, hochpräzisen Schichten zugewiesen werden.
Original lesen ↗