Elastic Attention Cores for Scalable Vision Transformers [R]
Este artículo presenta los Núcleos de Atención Elásticos como un nuevo bloque de construcción para Vision Transformers escalables, abordando el alto costo de la autoatención densa. El enfoque utiliza una estructura de atención escasa por bloques de núcleo-periferia y dropout anidado para ajustes elásticos del costo de inferencia, logrando una precisión competitiva.
![Elastic Attention Cores for Scalable Vision Transformers [R]](/cdn-cgi/image/width=3840,quality=75,format=webp/https://preview.redd.it/zjea47ez7w0h1.png?width=140&height=140&crop=1:1,smart&auto=webp&s=2017a3d330a172670baae5645ddff3137bbe1df6)