Vision Transformers

3 items

RESEARCH↑ trendingReddit r/MachineLearning·27d atrás

Elastic Attention Cores for Scalable Vision Transformers [R]

Este artigo propõe Elastic Attention Cores como um novo bloco construtivo para Vision Transformers escaláveis, abordando o alto custo da autoatenção densa. A abordagem utiliza uma estrutura de atenção esparsa em bloco e dropout aninhado para permitir ajustes elásticos no custo de inferência, alcançando alta precisão.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

RESEARCH↑ trendingReddit r/MachineLearning·19d atrás

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Esta discussão questiona se os Modelos de Linguagem Visual (VLMs) em produção ainda utilizam ViTs de patch fixo para suas capacidades de visão, apesar da existência de métodos de tokenização mais eficientes. Explora possíveis razões para isso, como ganhos marginais, limitações de pipeline ou leis de escala não compreendidas para o "patching" adaptativo.

VLMs deep learning Vision Transformers Tokenization

RESEARCHarXiv CS.LG·20/04/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Este artigo aborda o gargalo de sobrecarga de despacho que impede a poda de tokens de reduzir a latência em Vision Transformers (ViTs). Ele apresenta um novo kernel de atenção Triton que diminui significativamente essa sobrecarga, resultando em melhoria de throughput de ponta a ponta para ViTs podados.

AI models deep learning Performance optimization attention mechanisms