KIV: 1M token context window on a RTX 4070 (12GB VRAM), no retraining, drop-in HuggingFace cache replacement - Works with any model that uses DynamicCache [P]
KIV (K-Indexed V Materialization) est une couche middleware qui remplace le cache KV standard de HuggingFace par un système de récupération étagé, déplaçant les anciennes données vers la RAM système. Cela permet des fenêtres de contexte de 1 million de tokens sur une RTX 4070 (12GB VRAM) avec seulement 12MB de surcharge VRAM et de bonnes performances.