RESEARCH35

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

arXiv CS.LG·20 de abril de 2026

Este artigo aborda o gargalo de sobrecarga de despacho que impede a poda de tokens de reduzir a latência em Vision Transformers (ViTs). Ele apresenta um novo kernel de atenção Triton que diminui significativamente essa sobrecarga, resultando em melhoria de throughput de ponta a ponta para ViTs podados.

AI models deep learning Performance optimization attention mechanisms Vision Transformers

Ler original ↗