RESEARCH27
AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation
DEV.to AI·18 de abril de 2026
AMBER presenta un nuevo benchmark multidimensional, independiente de LLM, diseñado para evaluar rigurosamente la alucinación en Modelos de Lenguaje Grandes Multimodales (MLLMs). Esta investigación tiene como objetivo proporcionar una herramienta integral para analizar la fiabilidad y precisión de las salidas de los MLLMs.
Leer original ↗