VLMs

4 items

RESEARCH↑ trendingReddit r/MachineLearning·il y a 19j

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Cette discussion se demande si les Modèles de Langage Visuel (VLMs) en production utilisent toujours des Vision Transformers (ViTs) à patchs fixes pour leurs capacités visuelles, malgré l'existence de méthodes de tokenisation plus efficaces. Elle explore les raisons possibles de cette situation, telles que des gains marginaux, des limitations de pipeline ou des lois d'échelle mal comprises pour le "patching" adaptatif.

VLMs deep learning Vision Transformers Tokenization

RESEARCHDEV.to AI·il y a 20j

PaliGemma 2: A Family of Versatile VLMs for Transfer

PaliGemma 2 est introduite comme une nouvelle famille de Modèles Langage-Vision (VLMs) polyvalents, conçue spécifiquement pour exceller dans diverses applications d'apprentissage par transfert. Cette avancée vise à améliorer les performances à travers diverses tâches multimodales grâce à un transfert de connaissances efficace.

AI models Vision-Language Models VLMs Transfer Learning

RESEARCHarXiv CS.LG·il y a 19j

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE s'attaque à l'oubli catastrophique dans l'apprentissage continu pour les LLM et VLM utilisant des architectures Mixture-of-Experts. Il introduit un expert transitoire et un routage préservant la cohérence pour intégrer de nouvelles connaissances tout en empêchant l'écrasement des paramètres existants.

LLMs VLMs learning Mixture of Experts

RESEARCHarXiv CS.AI·il y a 26j

Revealing Interpretable Failure Modes of VLMs

Malgré leurs larges capacités de raisonnement, les Modèles Vision-Langage (VLMs) peuvent présenter des défaillances catastrophiques dans des situations réelles. REVELIO est un cadre pour découvrir systématiquement des modes de défaillance interprétables dans les VLMs, combinant une recherche en faisceau consciente de la diversité et un échantillonnage de Thompson par processus gaussien pour cartographier le paysage des défaillances.

failure modes AI models VLMs Reliability