RESEARCH27

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

arXiv CS.LG·11. Mai 2026

Dieses Papier stellt LKV (Learned KV Eviction) vor, einen neuartigen Ansatz zur Optimierung des Key-Value (KV)-Cache-Speichers in Large Language Models (LLMs). LKV formuliert die KV-Cache-Kompression als ein durchgängiges, differenzierbares Optimierungsproblem, das Budgets und Token-Auswahl lernt, um die Einschränkungen heuristischer Methoden zu überwinden.

deep learning Memory Optimization efficiency KV cache LLM

Original lesen ↗