Vision Transformers

3 items

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Elastic Attention Cores for Scalable Vision Transformers [R]

Dieses Paper stellt Elastic Attention Cores als neuen Baustein für skalierbare Vision Transformer vor, um die hohen Kosten dichter Selbst-Aufmerksamkeit zu adressieren. Der Ansatz verwendet eine Kern-Peripherie-Block-Sparse-Aufmerksamkeitsstruktur und Nested Dropout für elastische Anpassungen der Inferenzkosten, wodurch eine hohe Genauigkeit erreicht wird.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

RESEARCH↑ trendingReddit r/MachineLearning·vor 19T

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Diese Diskussion hinterfragt, ob Produktions-Vision-Language-Modelle (VLMs) trotz effizienterer Tokenisierungsverfahren immer noch fest gepatchte Vision Transformer (ViTs) für ihre Sehfähigkeiten verwenden. Es werden mögliche Gründe dafür untersucht, wie marginale Gewinne, Pipeline-Einschränkungen oder unklare Skalierungsgesetze für adaptives Patching.

VLMs deep learning Vision Transformers Tokenization

RESEARCHarXiv CS.LG·4/20/2026

Dispatch-Aware Ragged Attention for Pruned Vision Transformers

Diese Arbeit untersucht den Dispatch-Overhead als Engpass, der verhindert, dass Token-Pruning die Latenz in Vision Transformers (ViTs) vollständig reduziert. Es wird ein leichter Triton-Aufmerksamkeitskernel vorgestellt, der diesen Overhead erheblich senkt und den End-to-End-Durchsatz für beschnittene ViTs um bis zu 2,24x steigert.

AI models deep learning Performance optimization attention mechanisms