KV cache

6 items

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

KIV (K-Indexed V Materialization) é uma camada intermediária que substitui o cache KV padrão do HuggingFace por um sistema de recuperação em camadas, movendo dados antigos para a RAM do sistema. Isso permite janelas de contexto de 1 milhão de tokens em uma RTX 4070 (12GB VRAM) com apenas 12MB de sobrecarga de VRAM e bom desempenho.

KIV LLM optimization Context window VRAM

ARTICLE↑ trendingReddit r/LocalLLaMA·18d atrás

[llama.cpp] Asymmetric KV q8/q4 cache: current caveats and discussion in GGML repo

O conteúdo discute um desafio técnico no llama.cpp relacionado à quantização de cache KV q8/q4 assimétrica, que pode forçar o processamento na CPU em vez da GPU para CUDA. Uma discussão no GitHub sugere que compilar com uma combinação específica de quantização de cache KV, mesmo sem FA_ALL_QUANTS, oferece economia significativa de memória com apenas 1,3% de perda de precisão.

llama.cpp GPU optimization quantization KV cache

RESEARCHarXiv CS.LG·06/05/2026

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

O eOptShrinkQ é um pipeline de compressão de duas fases para cache KV em cabeças de atenção de transformadores. Ele utiliza encolhimento de valor singular ideal e quantização escalar por vetor, fundamentado na teoria de matrizes aleatórias, para obter compressão quase sem perdas e melhorar a reconstrução.

quantization Random matrix theory AI compression KV cache

ARTICLEDEV.to AI·15/04/2026

We Gave an AI Agent a Long Context Caching Idea. Here's what happened next!

O artigo descreve um experimento onde se usa o cache KV de um LLM (Qwen3.5-35B-A3B com 1M de tokens) como um "document store", preenchendo-o uma vez e persistindo-o para responder a consultas, eliminando a necessidade de embeddings e bancos de dados vetoriais. O agente de engenharia de IA, NEO, implementou autonomamente este sistema de Geração Aumentada por Cache em apenas 30 minutos.

AI agent Long Context Caching KV cache

RESEARCHarXiv CS.LG·29d atrás

LKV: End-to-End Learning of Head-wise Budgets and Token Selection for LLM KV Cache Eviction

Este artigo apresenta o LKV (Learned KV Eviction), uma nova abordagem para otimizar a memória do cache Key-Value (KV) em Large Language Models (LLMs). O LKV formula a compressão do cache KV como um problema de otimização diferenciável de ponta a ponta, aprendendo orçamentos e seleção de tokens para superar as limitações dos métodos heurísticos.

deep learning Memory Optimization efficiency KV cache

RESEARCHarXiv CS.CL·07/04/2026

Knowledge Packs: Zero-Token Knowledge Delivery via KV Cache Injection

“Knowledge Packs” propõe um método para entrega de conhecimento de "token zero" em modelos de linguagem grandes (LLMs) através da injeção direta de informações no cache KV. Esta técnica visa melhorar o desempenho e reduzir os custos de inferência ao integrar conhecimento externo de forma eficiente, sem consumir tokens de contexto.

Knowledge Injection machine learning AI large language models