High-throughput serving — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.LG·vor 20Std

Enabling KV Caching of Shared Prefix for Diffusion Language Models

Die Arbeit stellt "bicache" vor, die erste KV-Caching-Technik für geteilte Präfixe in Diffusions-Sprachmodellen (DLMs), die Herausforderungen angeht, bei denen bestehende LLM-Caching-Methoden aufgrund der bidirektionalen Aufmerksamkeit von DLMs versagen. Dieser neue Ansatz zielt darauf ab, einen hohen Durchsatz beim DLM-Serving zu ermöglichen, indem er Erkenntnisse über die Stabilität geteilter Präfix-KVs in flachen Schichten nutzt.

Diffusion Models KV Caching Performance optimization High-throughput serving