heapsort
RESEARCH27

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

arXiv CS.CL·30 de abril de 2026

Este artigo apresenta o MATH-PT, um novo conjunto de dados com 1.729 problemas matemáticos em português europeu e brasileiro, para combater o viés linguístico nas avaliações de raciocínio matemático de LLMs. O benchmark revela que modelos de fronteira têm bom desempenho em questões de múltipla escolha, mas sua performance decai em perguntas abertas.

Ler original