RESEARCH27

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation

DEV.to AI·18 de abril de 2026

AMBER introduz um novo benchmark multidimensional, independente de LLM, projetado para avaliar rigorosamente a alucinação em Modelos de Linguagem Grande Multimodais (MLLMs). Esta pesquisa visa fornecer uma ferramenta abrangente para analisar a confiabilidade e precisão das saídas dos MLLMs.

hallucination MLLMs Benchmarking AI evaluation

Ler original ↗