heapsort
RESEARCH29

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

arXiv CS.CL·7 avril 2026

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Lire l'original
Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation — arXiv CS.CL — heapsort-ai