KV cache

6 items

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) est une couche middleware qui remplace le cache KV standard de HuggingFace par un système de récupération étagé, déplaçant les anciennes données vers la RAM système. Cela permet des fenêtres de contexte de 1 million de tokens sur une RTX 4070 (12GB VRAM) avec seulement 12MB de surcharge VRAM et de bonnes performances.

KIV LLM optimization Context window VRAM

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 18j

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Ce contenu aborde un défi dans llama.cpp concernant la quantification asymétrique du cache KV q8/q4, qui peut entraîner un traitement CPU sur CUDA. Une discussion GitHub souligne qu'une compilation avec une combinaison spécifique de quantification du cache KV permet des économies de mémoire substantielles avec une perte de précision minime de 1,3%.

llama.cpp GPU optimization quantization KV cache

RESEARCHarXiv CS.LG·06/05/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ est un pipeline de compression en deux étapes pour le cache KV dans les têtes d'attention des transformateurs. Il utilise le rétrécissement optimal des valeurs singulières et la quantification scalaire par vecteur, basée sur la théorie des matrices aléatoires, pour obtenir une compression quasi sans perte et améliorer la reconstruction.

quantization Random matrix theory AI compression KV cache

ARTICLEDEV.to AI·15/04/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

L'article décrit une expérience où le cache KV d'un LLM (Qwen3.5-35B-A3B avec 1M de tokens) est utilisé comme "magasin de documents" en le préchargeant une fois et en le persistant pour répondre aux requêtes, éliminant les embeddings et les bases de données vectorielles. L'agent d'ingénierie IA, NEO, a implémenté de manière autonome ce système de Génération Augmentée par Cache en seulement 30 minutes.

AI agent Long Context Caching KV cache

RESEARCHarXiv CS.LG·il y a 29j

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Cet article introduit LKV (Learned KV Eviction), une nouvelle approche pour optimiser la mémoire cache Key-Value (KV) dans les Large Language Models (LLM). LKV formule la compression du cache KV comme un problème d'optimisation différentiable de bout en bout, apprenant les budgets et la sélection de tokens pour surmonter les limitations des méthodes heuristiques.

deep learning Memory Optimization efficiency KV cache

RESEARCHarXiv CS.CL·07/04/2026

Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection

"Knowledge Packs" propose une méthode de livraison de connaissances "sans jeton" pour les grands modèles de langage (LLM) en injectant directement des informations dans le cache KV. Cette technique vise à améliorer les performances des LLM et à réduire les coûts d'inférence en intégrant efficacement des connaissances externes sans consommer de jetons de contexte.

Knowledge Injection machine learning AI large language models