← heapsort-ai

Vision Transformers

3 items

RESEARCH↑ trendingReddit r/MachineLearning·vor 27T

Elastic Attention Cores for Scalable Vision Transformers [R]

Dieses Paper stellt Elastic Attention Cores als neuen Baustein für skalierbare Vision Transformer vor, um die hohen Kosten dichter Selbst-Aufmerksamkeit zu adressieren. Der Ansatz verwendet eine Kern-Peripherie-Block-Sparse-Aufmerksamkeitsstruktur und Nested Dropout für elastische Anpassungen der Inferenzkosten, wodurch eine hohe Genauigkeit erreicht wird.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
RESEARCH↑ trendingReddit r/MachineLearning·vor 19T

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Diese Diskussion hinterfragt, ob Produktions-Vision-Language-Modelle (VLMs) trotz effizienterer Tokenisierungsverfahren immer noch fest gepatchte Vision Transformer (ViTs) für ihre Sehfähigkeiten verwenden. Es werden mögliche Gründe dafür untersucht, wie marginale Gewinne, Pipeline-Einschränkungen oder unklare Skalierungsgesetze für adaptives Patching.

42