RESEARCH28

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

arXiv CS.CL·23. April 2026

TTKV schlägt ein zeitlich gestaffeltes KV-Cache-Management-Framework für LLMs vor, das von menschlichen Gedächtnissystemen inspiriert ist, um das Problem der linearen Skalierung des KV-Cache-Speichers zu lösen. Es teilt den Cache in Schichten mit heterogener Kapazität und Präzision auf, wobei neuere KV-Zustände schnelleren, hochpräzisen Schichten zugewiesen werden.

neural networks LLMs memory management Inference Optimization

Original lesen ↗