← heapsort-ai

VLMs

4 items

RESEARCH↑ trendingReddit r/MachineLearning·il y a 19j

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Cette discussion se demande si les Modèles de Langage Visuel (VLMs) en production utilisent toujours des Vision Transformers (ViTs) à patchs fixes pour leurs capacités visuelles, malgré l'existence de méthodes de tokenisation plus efficaces. Elle explore les raisons possibles de cette situation, telles que des gains marginaux, des limitations de pipeline ou des lois d'échelle mal comprises pour le "patching" adaptatif.

42
RESEARCHarXiv CS.AI·il y a 26j

Revealing Interpretable Failure Modes of VLMs

Malgré leurs larges capacités de raisonnement, les Modèles Vision-Langage (VLMs) peuvent présenter des défaillances catastrophiques dans des situations réelles. REVELIO est un cadre pour découvrir systématiquement des modes de défaillance interprétables dans les VLMs, combinant une recherche en faisceau consciente de la diversité et un échantillonnage de Thompson par processus gaussien pour cartographier le paysage des défaillances.

27