RESEARCH29
Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation
arXiv CS.CL·April 7, 2026
QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.
Read original ↗