RESEARCH27

Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits

arXiv CS.AI·12. Mai 2026

Diese Forschung testet die "Aufmerksamkeits-Vertrauens-Annahme" bei Vision-Sprach-Modellen (VLMs) und stellt fest, dass die Aufmerksamkeitsstruktur ein fast nuller Prädiktor für Korrektheit ist. Die Studie verwendet eine einheitliche mechanistische Pipeline (VLM Reliability Probe), um Aufmerksamkeitsstruktur, Generationsdynamik und Hidden-State-Geometrie in drei VLM-Familien zu analysieren.

Vision-Language Models Mechanistic Interpretability attention mechanisms AI reliability

Original lesen ↗