RESEARCH27

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

arXiv CS.LG·11 mai 2026

Cet article introduit LKV (Learned KV Eviction), une nouvelle approche pour optimiser la mémoire cache Key-Value (KV) dans les Large Language Models (LLM). LKV formule la compression du cache KV comme un problème d'optimisation différentiable de bout en bout, apprenant les budgets et la sélection de tokens pour surmonter les limitations des méthodes heuristiques.

deep learning Memory Optimization efficiency KV cache LLM

Lire l'original ↗