RESEARCH27

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

arXiv CS.LG·8 mai 2026

Cet article introduit le cache de préfixe épars, une optimisation pour la diffusion de LLM qui stocke les états récurrents à des points de contrôle plutôt que l'historique complet des tokens. La méthode améliore constamment la frontière de Pareto par rapport aux heuristiques standards, en particulier pour les cas d'utilisation où les requêtes partagent un préfixe non trivial.

LLMs AI infrastructure Caching performance State Space Models

Lire l'original ↗