← heapsort-ai

Cross-modal reasoning

1 items

RESEARCHarXiv CS.CL·hace 5d

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench es un nuevo benchmark para evaluar la seguridad de los LLM Omni que procesan entradas visuales, de audio y texto, revelando desafíos significativos en la integración de modalidades para juicios de seguridad precisos. Destaca que los LLM Omni actuales carecen de un razonamiento robusto entre modalidades en entornos críticos de seguridad.

28