RESEARCH27
MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese
arXiv CS.CL·30 de abril de 2026
Este artigo apresenta o MATH-PT, um novo conjunto de dados com 1.729 problemas matemáticos em português europeu e brasileiro, para combater o viés linguístico nas avaliações de raciocínio matemático de LLMs. O benchmark revela que modelos de fronteira têm bom desempenho em questões de múltipla escolha, mas sua performance decai em perguntas abertas.
Ler original ↗