RESEARCH27

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

arXiv CS.LG·11 de maio de 2026

Este artigo apresenta o LKV (Learned KV Eviction), uma nova abordagem para otimizar a memória do cache Key-Value (KV) em Large Language Models (LLMs). O LKV formula a compressão do cache KV como um problema de otimização diferenciável de ponta a ponta, aprendendo orçamentos e seleção de tokens para superar as limitações dos métodos heurísticos.

deep learning Memory Optimization efficiency KV cache LLM

Ler original ↗