heapsort
RESEARCH27

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation

DEV.to AI·18 de abril de 2026

AMBER presenta un nuevo benchmark multidimensional, independiente de LLM, diseñado para evaluar rigurosamente la alucinación en Modelos de Lenguaje Grandes Multimodales (MLLMs). Esta investigación tiene como objetivo proporcionar una herramienta integral para analizar la fiabilidad y precisión de las salidas de los MLLMs.

Leer original