Vision Transformers

3 items

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Elastic Attention Cores for Scalable Vision Transformers [R]

Este artículo presenta los Núcleos de Atención Elásticos como un nuevo bloque de construcción para Vision Transformers escalables, abordando el alto costo de la autoatención densa. El enfoque utiliza una estructura de atención escasa por bloques de núcleo-periferia y dropout anidado para ajustes elásticos del costo de inferencia, logrando una precisión competitiva.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

RESEARCH↑ trendingReddit r/MachineLearning·hace 19d

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Esta discusión cuestiona si los Modelos de Lenguaje Visual (VLMs) en producción aún utilizan ViTs de parche fijo para sus capacidades de visión, a pesar de la existencia de métodos de tokenización más eficientes. Explora posibles razones para esto, como ganancias marginales, limitaciones de tubería o leyes de escala no claras para el "patching" adaptativo.

VLMs deep learning Vision Transformers Tokenization

RESEARCHarXiv CS.LG·20/4/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Este artículo analiza el cuello de botella de la sobrecarga de despacho que impide que la poda de tokens reduzca eficazmente la latencia en Vision Transformers (ViTs). Se presenta un nuevo kernel de atención Triton que reduce significativamente esta sobrecarga, logrando hasta 2.24x de rendimiento total para ViTs podados.

AI models deep learning Performance optimization attention mechanisms