RESEARCH27

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

arXiv CS.LG·8 de mayo de 2026

Este artículo presenta el almacenamiento en caché de prefijos dispersos, una optimización para la distribución de LLM que almacena estados recurrentes en puntos de control en lugar de todo el historial de tokens. El método mejora consistentemente la frontera de Pareto en comparación con las heurísticas estándar, especialmente para casos de uso donde las solicitudes comparten un prefijo no trivial.

LLMs AI infrastructure Caching performance State Space Models

Leer original ↗