RESEARCH27

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

arXiv CS.AI·12 mai 2026

Cette recherche teste l'"Hypothèse de Confiance-Attention" dans les Modèles de Vision-Langage (VLMs), constatant que la structure de l'attention est un prédicteur quasi nul de la justesse. L'étude utilise un pipeline mécaniste unifié (VLM Reliability Probe) pour analyser la structure de l'attention, la dynamique de génération et la géométrie des états cachés dans trois familles de VLMs.

Vision-Language Models Mechanistic Interpretability attention mechanisms AI reliability

Lire l'original ↗