RESEARCH35

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

arXiv CS.LG·20. April 2026

Diese Arbeit untersucht den Dispatch-Overhead als Engpass, der verhindert, dass Token-Pruning die Latenz in Vision Transformers (ViTs) vollständig reduziert. Es wird ein leichter Triton-Aufmerksamkeitskernel vorgestellt, der diesen Overhead erheblich senkt und den End-to-End-Durchsatz für beschnittene ViTs um bis zu 2,24x steigert.

AI models deep learning Performance optimization attention mechanisms Vision Transformers

Original lesen ↗