RESEARCH27
AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation
DEV.to AI·18 de abril de 2026
AMBER introduz um novo benchmark multidimensional, independente de LLM, projetado para avaliar rigorosamente a alucinação em Modelos de Linguagem Grande Multimodais (MLLMs). Esta pesquisa visa fornecer uma ferramenta abrangente para analisar a confiabilidade e precisão das saídas dos MLLMs.
Ler original ↗