RESEARCH↑ trending42

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Reddit r/MachineLearning·21 de maio de 2026

Esta discussão questiona se os Modelos de Linguagem Visual (VLMs) em produção ainda utilizam ViTs de patch fixo para suas capacidades de visão, apesar da existência de métodos de tokenização mais eficientes. Explora possíveis razões para isso, como ganhos marginais, limitações de pipeline ou leis de escala não compreendidas para o "patching" adaptativo.

VLMs deep learning Vision Transformers Tokenization AI Research

Ler original ↗