Open-source single-GPU reproductions of Cartridges and STILL for neural KV-cache compaction [P]
L'auteur a implémenté et mis en open source deux idées récentes, Cartridges et STILL, pour la compaction du KV-cache neuronal et l'inférence à long contexte. Le but est de rendre ces idées faciles à inspecter et à exécuter avec du code de benchmark, les comparant également aux méthodes existantes.