RESEARCH35

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

arXiv CS.LG·20 avril 2026

Cet article examine le goulot d'étranglement lié à la surcharge de dispatch qui empêche l'élagage de tokens de réduire efficacement la latence dans les Vision Transformers (ViTs). Il propose un nouveau noyau d'attention Triton léger qui abaisse ce seuil de dispatch, améliorant ainsi le débit global jusqu'à 2.24x pour les ViTs élagués.

AI models deep learning Performance optimization attention mechanisms Vision Transformers

Lire l'original ↗