RESEARCH27

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

arXiv CS.CL·2 de junho de 2026

A decodificação de contexto longo em Large Language Models (LLMs) é severamente limitada pela largura de banda da memória do cache Key-Value (KV). Este artigo propõe o Attention Run-time Termination (ART), um mecanismo leve que otimiza o acesso ao cache KV, resultando em um aumento de 20% no throughput de geração.

LLMs memory management decoding performance AI Research

Ler original ↗