← heapsort-ai

High-throughput serving

1 items

RESEARCHarXiv CS.LG·21h atrás

Enabling KV Caching of Shared Prefix for Diffusion Language Models

O artigo apresenta "bicache", a primeira técnica de cache KV para prefixos partilhados em modelos de linguagem de difusão (DLMs), abordando desafios onde métodos de cache de LLM existentes falham devido à atenção bidirecional dos DLMs. Esta nova abordagem visa permitir o serviço de DLM de alto rendimento, aproveitando observações sobre a estabilidade dos KVs de prefixos partilhados em camadas superficiais.

46