RESEARCH29

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

arXiv CS.AI·13 de maio de 2026

Este artigo de pesquisa revela que âncoras numéricas em imagens sistematicamente distorcem os julgamentos de qualidade de Modelos de Visão-Linguagem (VLMs). A análise camada por camada mostra que as camadas ótimas para previsão de qualidade são mais profundas do que aquelas onde a classificação da âncora satura, estabelecendo uma explicação causal para o viés de ancoragem visual.

neural networks Vision-Language Models Model Evaluation representation learning Bias

Ler original ↗