Enabling KV Caching of Shared Prefix for Diffusion Language Models
L'article introduit "bicache", la première technique de mise en cache KV pour les préfixes partagés dans les modèles de langage de diffusion (DLMs), résolvant les défis où les méthodes de mise en cache LLM existantes échouent en raison de l'attention bidirectionnelle des DLMs. Cette nouvelle approche vise à permettre un service DLM à haut débit en exploitant les observations sur la stabilité des KVs de préfixes partagés dans les couches peu profondes.


