RESEARCH55

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

arXiv CS.LG·28 de abril de 2026

Este trabalho aborda o alto consumo de memória do cache Key-Value (KV) em modelos transformer, propondo uma otimização através da dimensão de profundidade. A pesquisa introduz um método para compartilhamento de cache entre camadas, demonstrando que o descarte do cache de uma camada pode ser eficiente sem perda de informação e sugere um treinamento com atenção aleatória entre camadas.

deep learningMemory Optimizationlarge language modelsTransformers

Ler original ↗