RESEARCH35

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

arXiv CS.LG·20 de abril de 2026

Este artículo analiza el cuello de botella de la sobrecarga de despacho que impide que la poda de tokens reduzca eficazmente la latencia en Vision Transformers (ViTs). Se presenta un nuevo kernel de atención Triton que reduce significativamente esta sobrecarga, logrando hasta 2.24x de rendimiento total para ViTs podados.

AI models deep learning Performance optimization attention mechanisms Vision Transformers

Leer original ↗