Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]
El autor implementó y publicó dos ideas recientes, Cartridges y STILL, para la compactación de la caché KV neuronal y la inferencia de contexto largo. El objetivo es facilitar la inspección y ejecución de estas ideas con código abierto y benchmarks, comparándolas también con métodos existentes.