RESEARCHarXiv CS.CL·07/04/2026
Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation
QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.
29