RESEARCH46

Enabling KV Caching of Shared Prefix for Diffusion Language Models

arXiv CS.LG·9 de junho de 2026

O artigo apresenta "bicache", a primeira técnica de cache KV para prefixos partilhados em modelos de linguagem de difusão (DLMs), abordando desafios onde métodos de cache de LLM existentes falham devido à atenção bidirecional dos DLMs. Esta nova abordagem visa permitir o serviço de DLM de alto rendimento, aproveitando observações sobre a estabilidade dos KVs de prefixos partilhados em camadas superficiais.

Diffusion Models KV Caching Performance optimization High-throughput serving LLM

Ler original ↗