RESEARCH27
Sparse Prefix Caching for Hybrid and Recurrent LLM Serving
arXiv CS.LG·8. Mai 2026
Dieser Artikel stellt Sparse Prefix Caching vor, eine Optimierung für das Bereitstellen von LLMs, die wiederkehrende Zustände an Prüfpunkten speichert, anstatt den gesamten Token-Verlauf zu benötigen. Die Methode verbessert die Pareto-Grenze im Vergleich zu Standard-Heuristiken, insbesondere bei Anwendungsfällen, in denen Anfragen ein nicht triviales Präfix teilen.
Original lesen ↗