RESEARCH28

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

arXiv CS.CL·5 de junio de 2026

MCBench es un nuevo benchmark para evaluar la seguridad de los LLM Omni que procesan entradas visuales, de audio y texto, revelando desafíos significativos en la integración de modalidades para juicios de seguridad precisos. Destaca que los LLM Omni actuales carecen de un razonamiento robusto entre modalidades en entornos críticos de seguridad.

multimodal AI LLMs Cross-modal reasoning benchmarks AI safety

Leer original ↗