KV cache

6 items

ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialisierung) ist eine Middleware-Schicht, die den Standard-HuggingFace-KV-Cache durch ein gestuftes Abrufsystem ersetzt und alte Daten in den System-RAM verschiebt. Dies ermöglicht 1M Token-Kontextfenster auf einer RTX 4070 (12 GB VRAM) mit nur 12 MB VRAM-Overhead und guter Leistung.

KIV LLM optimization Context window VRAM

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 18T

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

Dieser Inhalt behandelt eine Herausforderung in llama.cpp bezüglich der asymmetrischen KV q8/q4 Cache-Quantisierung, die zur CPU-Verarbeitung unter CUDA führen kann. Eine GitHub-Diskussion zeigt, dass das Kompilieren mit einer spezifischen KV-Cache-Quantisierungskombination erhebliche Speichereinsparungen bei nur 1,3 % Präzisionsverlust ermöglicht.

llama.cpp GPU optimization quantization KV cache

RESEARCHarXiv CS.LG·5/6/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

eOptShrinkQ ist eine zweistufige Kompressionspipeline für den KV-Cache in Transformer-Aufmerksamkeitsköpfen. Sie nutzt optimale Singulärwertschrumpfung und per-Vektor-Skalarquantisierung, basierend auf der Theorie der Zufallsmatrizen, um eine nahezu verlustfreie Kompression zu erreichen und die Rekonstruktion zu verbessern.

quantization Random matrix theory AI compression KV cache

ARTICLEDEV.to AI·4/15/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

Der Artikel beschreibt ein Experiment, bei dem der KV-Cache eines LLM (Qwen3.5-35B-A3B mit 1M Tokens) als „Dokumentenspeicher“ genutzt wird, indem er vorab gefüllt und persistiert wird, um Anfragen zu beantworten und somit Embeddings sowie Vektordatenbanken zu eliminieren. Das KI-Ingenieur-Agent NEO implementierte dieses Cache-Augmented Generation System autonom in nur 30 Minuten.

AI agent Long Context Caching KV cache

RESEARCHarXiv CS.LG·vor 29T

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Dieses Papier stellt LKV (Learned KV Eviction) vor, einen neuartigen Ansatz zur Optimierung des Key-Value (KV)-Cache-Speichers in Large Language Models (LLMs). LKV formuliert die KV-Cache-Kompression als ein durchgängiges, differenzierbares Optimierungsproblem, das Budgets und Token-Auswahl lernt, um die Einschränkungen heuristischer Methoden zu überwinden.

deep learning Memory Optimization efficiency KV cache

RESEARCHarXiv CS.CL·4/7/2026

Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection

"Knowledge Packs" stellt eine Methode zur "Zero-Token"-Wissensbereitstellung für große Sprachmodelle (LLMs) vor, indem Informationen direkt in den KV-Cache injiziert werden. Diese Technik zielt darauf ab, die LLM-Leistung zu verbessern und Inferenzkosten zu senken, indem externes Wissen effizient ohne Kontext-Tokens integriert wird.

Knowledge Injection machine learning AI large language models