← heapsort-ai

VLMs

4 items

RESEARCH↑ trendingReddit r/MachineLearning·hace 19d

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Esta discusión cuestiona si los Modelos de Lenguaje Visual (VLMs) en producción aún utilizan ViTs de parche fijo para sus capacidades de visión, a pesar de la existencia de métodos de tokenización más eficientes. Explora posibles razones para esto, como ganancias marginales, limitaciones de tubería o leyes de escala no claras para el "patching" adaptativo.

42
RESEARCHarXiv CS.AI·hace 26d

Revealing Interpretable Failure Modes of VLMs

A pesar de sus amplias capacidades de razonamiento, los Modelos de Visión-Lenguaje (VLMs) pueden experimentar fallos catastróficos en situaciones reales. Se presenta REVELIO, un marco para descubrir sistemáticamente modos de fallo interpretables en VLMs, combinando una búsqueda en haz consciente de la diversidad y muestreo de Thompson con proceso gaussiano para mapear el paisaje de fallos.

27