ART: Attention Run-time Termination for Efficient Large Language Model Decoding
La decodificación de contexto largo en Large Language Models (LLMs) está severamente limitada por el ancho de banda de la memoria del caché Key-Value (KV). Este artículo propone Attention Run-time Termination (ART), un mecanismo ligero que optimiza el acceso al caché KV, logrando un 20% más de rendimiento de generación.