RESEARCH27
ART: Attention Run-time Termination for Efficient Large Language Model Decoding
arXiv CS.CL·2 juin 2026
Le décodage de contexte long dans les Large Language Models (LLMs) est fortement contraint par la bande passante mémoire du cache Key-Value (KV). Cet article propose l'Attention Run-time Termination (ART), un mécanisme léger qui optimise l'accès au cache KV, augmentant le débit de génération de 20%.
Lire l'original ↗