RESEARCH27

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

arXiv CS.AI·12 de mayo de 2026

Esta investigación prueba la "Hipótesis de Atención-Confianza" en Modelos de Visión-Lenguaje (VLMs), descubriendo que la estructura de la atención es un predictor casi nulo de la corrección. El estudio utiliza una metodología mecanicista unificada (VLM Reliability Probe) para analizar la atención, la dinámica de generación y la geometría de los estados ocultos en tres familias de VLMs.

Vision-Language Models Mechanistic Interpretability Attention Mechanisms AI reliability

Leer original ↗