RESEARCH28
MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models
arXiv CS.CL·5 de junio de 2026
MCBench es un nuevo benchmark para evaluar la seguridad de los LLM Omni que procesan entradas visuales, de audio y texto, revelando desafíos significativos en la integración de modalidades para juicios de seguridad precisos. Destaca que los LLM Omni actuales carecen de un razonamiento robusto entre modalidades en entornos críticos de seguridad.
Leer original ↗