RESEARCH27
AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation
DEV.to AI·18. April 2026
AMBER stellt einen neuen, LLM-freien, mehrdimensionalen Benchmark vor, der zur strengen Bewertung von Halluzinationen in multimodalen großen Sprachmodellen (MLLMs) entwickelt wurde. Diese Forschung zielt darauf ab, ein umfassendes Werkzeug zur Bewertung der Zuverlässigkeit und Genauigkeit von MLLM-Ausgaben bereitzustellen.
Original lesen ↗