RESEARCH27

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation

DEV.to AI·18 avril 2026

AMBER introduit un nouveau benchmark multidimensionnel, indépendant des LLM, conçu pour évaluer rigoureusement l'hallucination dans les Modèles de Langage Grande Multimodaux (MLLMs). Cette recherche vise à fournir un outil complet pour analyser la fiabilité et la précision des sorties des MLLMs.

hallucination MLLMs Benchmarking AI evaluation

Lire l'original ↗