RESEARCH28

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

arXiv CS.CL·23 de abril de 2026

TTKV propone un marco de gestión de caché KV en niveles temporales para LLMs, inspirado en la memoria humana, para abordar la escala lineal de la memoria del caché KV. Particiona el caché en niveles con capacidad y precisión heterogéneas, asignando estados KV más recientes a niveles más rápidos y de mayor precisión.

neural networks LLMs memory management Inference Optimization

Leer original ↗