RESEARCH27

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

arXiv CS.CL·2 de junio de 2026

La decodificación de contexto largo en Large Language Models (LLMs) está severamente limitada por el ancho de banda de la memoria del caché Key-Value (KV). Este artículo propone Attention Run-time Termination (ART), un mecanismo ligero que optimiza el acceso al caché KV, logrando un 20% más de rendimiento de generación.

LLMs memory management decoding performance AI Research

Leer original ↗