RESEARCH29
Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing
arXiv CS.LG·28 de abril de 2026
Este trabajo aborda la significativa huella de memoria del caché Key-Value (KV) en modelos de transformadores, proponiendo una optimización a través de la dimensión de profundidad. Introduce un método para el intercambio de caché entre capas, demostrando que eliminar el caché de una capa puede ser eficiente sin pérdida de información y sugiere un enfoque de entrenamiento con atención aleatoria entre capas.
Leer original ↗