High-throughput serving — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·21h atrás

Enabling KV Caching of Shared Prefix for Diffusion Language Models

O artigo apresenta "bicache", a primeira técnica de cache KV para prefixos partilhados em modelos de linguagem de difusão (DLMs), abordando desafios onde métodos de cache de LLM existentes falham devido à atenção bidirecional dos DLMs. Esta nova abordagem visa permitir o serviço de DLM de alto rendimento, aproveitando observações sobre a estabilidade dos KVs de prefixos partilhados em camadas superficiais.

Diffusion Models KV Caching Performance optimization High-throughput serving