Enabling KV Caching of Shared Prefix for Diffusion Language Models
Die Arbeit stellt "bicache" vor, die erste KV-Caching-Technik für geteilte Präfixe in Diffusions-Sprachmodellen (DLMs), die Herausforderungen angeht, bei denen bestehende LLM-Caching-Methoden aufgrund der bidirektionalen Aufmerksamkeit von DLMs versagen. Dieser neue Ansatz zielt darauf ab, einen hohen Durchsatz beim DLM-Serving zu ermöglichen, indem er Erkenntnisse über die Stabilität geteilter Präfix-KVs in flachen Schichten nutzt.


