VLMs

4 items

RESEARCH↑ trendingReddit r/MachineLearning·vor 19T

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Diese Diskussion hinterfragt, ob Produktions-Vision-Language-Modelle (VLMs) trotz effizienterer Tokenisierungsverfahren immer noch fest gepatchte Vision Transformer (ViTs) für ihre Sehfähigkeiten verwenden. Es werden mögliche Gründe dafür untersucht, wie marginale Gewinne, Pipeline-Einschränkungen oder unklare Skalierungsgesetze für adaptives Patching.

VLMs deep learning Vision Transformers Tokenization

RESEARCHDEV.to AI·vor 20T

PaliGemma 2: A Family of Versatile VLMs for Transfer

PaliGemma 2 wird als neue Familie vielseitiger Vision-Sprach-Modelle (VLMs) vorgestellt, die speziell entwickelt wurden, um in verschiedenen Transfer-Lernanwendungen hervorragende Leistungen zu erbringen. Dieser Fortschritt zielt darauf ab, die Leistung in verschiedenen multimodalen Aufgaben durch effektiven Wissenstransfer zu verbessern.

AI models Vision-Language Models VLMs Transfer Learning

RESEARCHarXiv CS.LG·vor 19T

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE begegnet dem katastrophalen Vergessen im kontinuierlichen Lernen für LLMs und VLMs mittels Mixture-of-Experts-Architekturen. Es führt einen transienten Experten und konsistenzerhaltendes Routing ein, um neues Wissen zu integrieren und das Überschreiben bestehender Parameter zu verhindern.

LLMs VLMs learning Mixture of Experts

RESEARCHarXiv CS.AI·vor 26T

Revealing Interpretable Failure Modes of VLMs

Vision-Sprach-Modelle (VLMs) können trotz ihrer breiten Schlussfolgerungsfähigkeiten in realen Situationen katastrophale Fehler aufweisen. REVELIO ist ein Framework zur systematischen Aufdeckung interpretierbarer Fehlermodi in VLMs, das eine diversitätssensible Beam-Suche und ein Gaußsches-Prozess-Thompson-Sampling kombiniert, um die Fehlerlandschaft abzubilden.

failure modes AI models VLMs Reliability