RESEARCH27

Cultural Benchmarking of LLMs in Standard and Dialectal Arabic Dialogues

arXiv CS.CL·4 de mayo de 2026

Una nueva investigación aborda la brecha en la evaluación del razonamiento cultural en LLMs, presentando ArabCulture-Dialogue, un conjunto de datos conversacionales culturalmente fundamentado que cubre 13 países de habla árabe. Los experimentos indican que los modelos rinden peor en tareas de razonamiento cultural, traducción y generación en configuraciones dialectales en comparación con el árabe estándar moderno.

LLMs Arabic dialects cultural reasoning Benchmarking datasets

Leer original ↗