RESEARCH35
Dispatch-Aware Ragged Attention for Pruned Vision Transformers
arXiv CS.LG·20 avril 2026
Cet article examine le goulot d'étranglement lié à la surcharge de dispatch qui empêche l'élagage de tokens de réduire efficacement la latence dans les Vision Transformers (ViTs). Il propose un nouveau noyau d'attention Triton léger qui abaisse ce seuil de dispatch, améliorant ainsi le débit global jusqu'à 2.24x pour les ViTs élagués.
Lire l'original ↗