RESEARCH27

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

arXiv CS.CL·2 juin 2026

Le décodage de contexte long dans les Large Language Models (LLMs) est fortement contraint par la bande passante mémoire du cache Key-Value (KV). Cet article propose l'Attention Run-time Termination (ART), un mécanisme léger qui optimise l'accès au cache KV, augmentant le débit de génération de 20%.

LLMs memory management decoding performance AI research

Lire l'original ↗