RESEARCH29

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

arXiv CS.LG·28 de abril de 2026

Este trabajo aborda la significativa huella de memoria del caché Key-Value (KV) en modelos de transformadores, proponiendo una optimización a través de la dimensión de profundidad. Introduce un método para el intercambio de caché entre capas, demostrando que eliminar el caché de una capa puede ser eficiente sin pérdida de información y sugiere un enfoque de entrenamiento con atención aleatoria entre capas.

deep learning Memory Optimization large language models Transformers

Leer original ↗