RESEARCH27
AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation
DEV.to AI·18 avril 2026
AMBER introduit un nouveau benchmark multidimensionnel, indépendant des LLM, conçu pour évaluer rigoureusement l'hallucination dans les Modèles de Langage Grande Multimodaux (MLLMs). Cette recherche vise à fournir un outil complet pour analyser la fiabilité et la précision des sorties des MLLMs.
Lire l'original ↗