VLMs

4 items

RESEARCH↑ trendingReddit r/MachineLearning·hace 19d

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Esta discusión cuestiona si los Modelos de Lenguaje Visual (VLMs) en producción aún utilizan ViTs de parche fijo para sus capacidades de visión, a pesar de la existencia de métodos de tokenización más eficientes. Explora posibles razones para esto, como ganancias marginales, limitaciones de tubería o leyes de escala no claras para el "patching" adaptativo.

VLMs deep learning Vision Transformers Tokenization

RESEARCHDEV.to AI·hace 20d

PaliGemma 2: A Family of Versatile VLMs for Transfer

PaliGemma 2 se presenta como una nueva familia de Modelos de Lenguaje-Visión (VLMs) versátiles, diseñada específicamente para sobresalir en diversas aplicaciones de aprendizaje por transferencia. Este avance busca mejorar el rendimiento en múltiples tareas multimodales mediante una transferencia de conocimiento efectiva.

AI models Vision-Language Models VLMs Transfer Learning

RESEARCHarXiv CS.LG·hace 19d

CP-MoE: Consistency-Preserving Mixture-of-Experts for Continual Learning

CP-MoE aborda el olvido catastrófico en el aprendizaje continuo para LLMs y VLMs que utilizan arquitecturas Mixture-of-Experts. Introduce un experto transitorio y un enrutamiento que preserva la consistencia para integrar nuevos conocimientos y evitar la sobrescritura de parámetros existentes.

LLMs VLMs learning Mixture of Experts

RESEARCHarXiv CS.AI·hace 26d

Revealing Interpretable Failure Modes of VLMs

A pesar de sus amplias capacidades de razonamiento, los Modelos de Visión-Lenguaje (VLMs) pueden experimentar fallos catastróficos en situaciones reales. Se presenta REVELIO, un marco para descubrir sistemáticamente modos de fallo interpretables en VLMs, combinando una búsqueda en haz consciente de la diversidad y muestreo de Thompson con proceso gaussiano para mapear el paisaje de fallos.

failure modes AI models VLMs Reliability