RESEARCH35
Dispatch-Aware Ragged Attention for Pruned Vision Transformers
arXiv CS.LG·20 de abril de 2026
Este artículo analiza el cuello de botella de la sobrecarga de despacho que impide que la poda de tokens reduzca eficazmente la latencia en Vision Transformers (ViTs). Se presenta un nuevo kernel de atención Triton que reduce significativamente esta sobrecarga, logrando hasta 2.24x de rendimiento total para ViTs podados.
Leer original ↗