Enabling KV Caching of Shared Prefix for Diffusion Language Models
El artículo presenta "bicache", la primera técnica de caché KV para prefijos compartidos en modelos de lenguaje de difusión (DLMs), abordando desafíos donde los métodos de caché de LLM existentes fallan debido a la atención bidireccional de los DLMs. Este nuevo enfoque busca desbloquear el servicio de DLM de alto rendimiento, aprovechando observaciones sobre la estabilidad de los KVs de prefijos compartidos en capas poco profundas.


