ARTICLE↑ trending42

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

Reddit r/MachineLearning·12 de abril de 2026

KIV (K-Indexed V Materialization) é uma camada intermediária que substitui o cache KV padrão do HuggingFace por um sistema de recuperação em camadas, movendo dados antigos para a RAM do sistema. Isso permite janelas de contexto de 1 milhão de tokens em uma RTX 4070 (12GB VRAM) com apenas 12MB de sobrecarga de VRAM e bom desempenho.

KIVLLM optimizationcontext windowVRAMKV Cache

Ler original ↗