VLMs

4 items

RESEARCH↑ trendingReddit r/MachineLearning·19d atrás

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Esta discussão questiona se os Modelos de Linguagem Visual (VLMs) em produção ainda utilizam ViTs de patch fixo para suas capacidades de visão, apesar da existência de métodos de tokenização mais eficientes. Explora possíveis razões para isso, como ganhos marginais, limitações de pipeline ou leis de escala não compreendidas para o "patching" adaptativo.

VLMs deep learning Vision Transformers Tokenization

RESEARCHDEV.to AI·20d atrás

PaliGemma 2: A Family of Versatile VLMs for Transfer

PaliGemma 2 é apresentada como uma nova família de Modelos de Linguagem-Visão (VLMs) versáteis, projetada especificamente para se destacar em diversas aplicações de aprendizagem por transferência. Este avanço visa melhorar o desempenho em várias tarefas multimodais através da transferência eficaz de conhecimento.

AI models Vision-Language Models VLMs Transfer Learning

RESEARCHarXiv CS.LG·19d atrás

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE aborda o esquecimento catastrófico na aprendizagem contínua para LLMs e VLMs utilizando arquiteturas Mixture-of-Experts. Ele introduz um especialista transiente e roteamento que preserva a consistência para integrar novos conhecimentos e prevenir a sobrescrita de parâmetros existentes.

LLMs VLMs learning Mixture of Experts

RESEARCHarXiv CS.AI·26d atrás

Revealing Interpretable Failure Modes of VLMs

Modelos de Visão-Linguagem (VLMs) podem apresentar falhas catastróficas em cenários reais, apesar de suas amplas capacidades de raciocínio. REVELIO é um framework que identifica modos de falha interpretáveis em VLMs, combinando busca em feixe consciente da diversidade e amostragem de Thompson com processo gaussiano para mapear o cenário de falhas.

failure modes AI models VLMs Reliability