RESEARCHarXiv CS.LG·21h atrás
Enabling KV Caching of Shared Prefix for Diffusion Language Models
O artigo apresenta "bicache", a primeira técnica de cache KV para prefixos partilhados em modelos de linguagem de difusão (DLMs), abordando desafios onde métodos de cache de LLM existentes falham devido à atenção bidirecional dos DLMs. Esta nova abordagem visa permitir o serviço de DLM de alto rendimento, aproveitando observações sobre a estabilidade dos KVs de prefixos partilhados em camadas superficiais.
46