RESEARCH27
Sparse Prefix Caching for Hybrid and Recurrent LLM Serving
arXiv CS.LG·8 de maio de 2026
Este artigo apresenta o cache de prefixo esparso, uma otimização para servir LLMs que armazena estados recorrentes em pontos de verificação em vez de todo o histórico de tokens. O método melhora consistentemente a fronteira de Pareto em comparação com heurísticas padrão, especialmente para casos de uso onde as requisições compartilham um prefixo não trivial.
Ler original ↗