RESEARCH35
Dispatch-Aware Ragged Attention for Pruned Vision Transformers
arXiv CS.LG·20. April 2026
Diese Arbeit untersucht den Dispatch-Overhead als Engpass, der verhindert, dass Token-Pruning die Latenz in Vision Transformers (ViTs) vollständig reduziert. Es wird ein leichter Triton-Aufmerksamkeitskernel vorgestellt, der diesen Overhead erheblich senkt und den End-to-End-Durchsatz für beschnittene ViTs um bis zu 2,24x steigert.
Original lesen ↗