RESEARCH27
LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction
arXiv CS.LG·11 mai 2026
Cet article introduit LKV (Learned KV Eviction), une nouvelle approche pour optimiser la mémoire cache Key-Value (KV) dans les Large Language Models (LLM). LKV formule la compression du cache KV comme un problème d'optimisation différentiable de bout en bout, apprenant les budgets et la sélection de tokens pour surmonter les limitations des méthodes heuristiques.
Lire l'original ↗