RESEARCH27

ART: Attention Run-time Termination for Efficient Large Language Model Decoding

arXiv CS.CL·2. Juni 2026

Die Langkontext-Dekodierung in Large Language Models (LLMs) wird stark durch die Speicherbandbreite des Key-Value (KV)-Caches eingeschränkt. Dieses Papier schlägt Attention Run-time Termination (ART) vor, einen leichtgewichtigen Mechanismus, der den KV-Cache-Zugriff optimiert und einen um 20% höheren Generierungsdurchsatz erzielt.

LLMs memory management decoding performance AI Research

Original lesen ↗