RESEARCH46
Enabling KV Caching of Shared Prefix for Diffusion Language Models
arXiv CS.LG·9 de junho de 2026
O artigo apresenta "bicache", a primeira técnica de cache KV para prefixos partilhados em modelos de linguagem de difusão (DLMs), abordando desafios onde métodos de cache de LLM existentes falham devido à atenção bidirecional dos DLMs. Esta nova abordagem visa permitir o serviço de DLM de alto rendimento, aproveitando observações sobre a estabilidade dos KVs de prefixos partilhados em camadas superficiais.
Ler original ↗