RESEARCH27

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

arXiv CS.LG·11 de mayo de 2026

Este artículo presenta LKV (Learned KV Eviction), un nuevo enfoque para optimizar la memoria caché de Key-Value (KV) en Large Language Models (LLMs). LKV formula la compresión de caché KV como un problema de optimización diferenciable de extremo a extremo, aprendiendo presupuestos y selección de tokens para superar las limitaciones de los métodos heurísticos.

deep learning Memory Optimization efficiency KV cache LLM

Leer original ↗