notch
RESEARCH29

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

arXiv CS.CL·7 de abril de 2026

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Arabic LLMNLPbenchmarksquality assuranceLLM evaluation
Ler original