ART: Attention Run-time Termination for Efficient Large Language Model Decoding
Die Langkontext-Dekodierung in Large Language Models (LLMs) wird stark durch die Speicherbandbreite des Key-Value (KV)-Caches eingeschränkt. Dieses Papier schlägt Attention Run-time Termination (ART) vor, einen leichtgewichtigen Mechanismus, der den KV-Cache-Zugriff optimiert und einen um 20% höheren Generierungsdurchsatz erzielt.