RESEARCH28

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

arXiv CS.CL·5 juin 2026

MCBench est un nouveau benchmark pour évaluer la sécurité des LLM Omni traitant des entrées visuelles, audio et textuelles, révélant des défis importants dans l'intégration des modalités pour des jugements de sécurité précis. Il souligne que les LLM Omni actuels manquent de raisonnement intermodal robuste dans des contextes critiques de sécurité.

multimodal AI LLMs Cross-modal reasoning Benchmarks AI safety

Lire l'original ↗