RESEARCH27

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

arXiv CS.LG·8. Mai 2026

Dieser Artikel stellt Sparse Prefix Caching vor, eine Optimierung für das Bereitstellen von LLMs, die wiederkehrende Zustände an Prüfpunkten speichert, anstatt den gesamten Token-Verlauf zu benötigen. Die Methode verbessert die Pareto-Grenze im Vergleich zu Standard-Heuristiken, insbesondere bei Anwendungsfällen, in denen Anfragen ein nicht triviales Präfix teilen.

LLMs AI infrastructure Caching performance State Space Models

Original lesen ↗