RESEARCH35
Dispatch-Aware Ragged Attention for Pruned Vision Transformers
arXiv CS.LG·20 de abril de 2026
Este artigo aborda o gargalo de sobrecarga de despacho que impede a poda de tokens de reduzir a latência em Vision Transformers (ViTs). Ele apresenta um novo kernel de atenção Triton que diminui significativamente essa sobrecarga, resultando em melhoria de throughput de ponta a ponta para ViTs podados.
Ler original ↗