ARTICLE↑ trending42
KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]
Reddit r/MachineLearning·12. April 2026
KIV (K-Indexed V Materialisierung) ist eine Middleware-Schicht, die den Standard-HuggingFace-KV-Cache durch ein gestuftes Abrufsystem ersetzt und alte Daten in den System-RAM verschiebt. Dies ermöglicht 1M Token-Kontextfenster auf einer RTX 4070 (12 GB VRAM) mit nur 12 MB VRAM-Overhead und guter Leistung.
Original lesen ↗