heapsort
RESEARCH27

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

arXiv CS.LG·8 de maio de 2026

Este artigo apresenta o cache de prefixo esparso, uma otimização para servir LLMs que armazena estados recorrentes em pontos de verificação em vez de todo o histórico de tokens. O método melhora consistentemente a fronteira de Pareto em comparação com heurísticas padrão, especialmente para casos de uso onde as requisições compartilham um prefixo não trivial.

Ler original