RESEARCH↑ trending42

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Reddit r/MachineLearning·21 mai 2026

Cette discussion se demande si les Modèles de Langage Visuel (VLMs) en production utilisent toujours des Vision Transformers (ViTs) à patchs fixes pour leurs capacités visuelles, malgré l'existence de méthodes de tokenisation plus efficaces. Elle explore les raisons possibles de cette situation, telles que des gains marginaux, des limitations de pipeline ou des lois d'échelle mal comprises pour le "patching" adaptatif.

VLMs deep learning Vision Transformers Tokenization AI Research

Lire l'original ↗