← heapsort-ai

VLMs

4 items

RESEARCH↑ trendingReddit r/MachineLearning·vor 19T

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Diese Diskussion hinterfragt, ob Produktions-Vision-Language-Modelle (VLMs) trotz effizienterer Tokenisierungsverfahren immer noch fest gepatchte Vision Transformer (ViTs) für ihre Sehfähigkeiten verwenden. Es werden mögliche Gründe dafür untersucht, wie marginale Gewinne, Pipeline-Einschränkungen oder unklare Skalierungsgesetze für adaptives Patching.

42
RESEARCHarXiv CS.AI·vor 26T

Revealing Interpretable Failure Modes of VLMs

Vision-Sprach-Modelle (VLMs) können trotz ihrer breiten Schlussfolgerungsfähigkeiten in realen Situationen katastrophale Fehler aufweisen. REVELIO ist ein Framework zur systematischen Aufdeckung interpretierbarer Fehlermodi in VLMs, das eine diversitätssensible Beam-Suche und ein Gaußsches-Prozess-Thompson-Sampling kombiniert, um die Fehlerlandschaft abzubilden.

27