heapsort
ARTICLE↑ trending42

KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]

Reddit r/MachineLearning·12 de abril de 2026

KIV (K-Indexed V Materialization) es una capa de middleware que reemplaza la caché KV estándar de HuggingFace con un sistema de recuperación por niveles, moviendo datos antiguos a la RAM del sistema. Esto permite ventanas de contexto de 1 millón de tokens en una RTX 4070 (12GB VRAM) con solo 12MB de sobrecarga de VRAM y buen rendimiento.

Leer original