RESEARCH27
Sparse Prefix Caching for Hybrid and Recurrent LLM Serving
arXiv CS.LG·8 mai 2026
Cet article introduit le cache de préfixe épars, une optimisation pour la diffusion de LLM qui stocke les états récurrents à des points de contrôle plutôt que l'historique complet des tokens. La méthode améliore constamment la frontière de Pareto par rapport aux heuristiques standards, en particulier pour les cas d'utilisation où les requêtes partagent un préfixe non trivial.
Lire l'original ↗