RESEARCH27

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

arXiv CS.LG·8 de maio de 2026

Este artigo apresenta o cache de prefixo esparso, uma otimização para servir LLMs que armazena estados recorrentes em pontos de verificação em vez de todo o histórico de tokens. O método melhora consistentemente a fronteira de Pareto em comparação com heurísticas padrão, especialmente para casos de uso onde as requisições compartilham um prefixo não trivial.

LLMs AI infrastructure Caching performance State Space Models

Ler original ↗