RESEARCH27

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation

DEV.to AI·18. April 2026

AMBER stellt einen neuen, LLM-freien, mehrdimensionalen Benchmark vor, der zur strengen Bewertung von Halluzinationen in multimodalen großen Sprachmodellen (MLLMs) entwickelt wurde. Diese Forschung zielt darauf ab, ein umfassendes Werkzeug zur Bewertung der Zuverlässigkeit und Genauigkeit von MLLM-Ausgaben bereitzustellen.

hallucination MLLMs Benchmarking AI evaluation

Original lesen ↗