RESEARCH27

Source-Modality Monitoring in Vision-Language Models

arXiv CS.CL·27. April 2026

Diese Forschung definiert und untersucht die Quellmodalitätsüberwachung in Vision-Language Models (VLMs), also die Fähigkeit, die Herkunft von Informationen zu verfolgen. Die Studie zeigt, dass VLMs sowohl syntaktische als auch semantische Signale nutzen, um Informationen ihrer Eingabequelle zuzuordnen, wobei semantische Signale oft überwiegen und Implikationen für die Modellrobustheit haben.

model robustness multimodal AI Vision-Language Models

Original lesen ↗