RESEARCH28

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

arXiv CS.CL·5. Juni 2026

MCBench ist ein neuer Benchmark zur Bewertung der Sicherheit von Omni Large Language Models, die visuelle, akustische und textliche Eingaben verarbeiten, und zeigt erhebliche Herausforderungen bei der Integration mehrerer Modalitäten für genaue Sicherheitsbewertungen auf. Er unterstreicht, dass aktuelle Omni LLMs in sicherheitskritischen Umgebungen kein robustes modalitätsübergreifendes Denken aufweisen.

multimodal AI LLMs Cross-modal reasoning Benchmarks AI safety

Original lesen ↗