ART: Attention Run-time Termination for Efficient Large Language Model Decoding
A decodificação de contexto longo em Large Language Models (LLMs) é severamente limitada pela largura de banda da memória do cache Key-Value (KV). Este artigo propõe o Attention Run-time Termination (ART), um mecanismo leve que otimiza o acesso ao cache KV, resultando em um aumento de 20% no throughput de geração.