heapsort
RESEARCH27

MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese

arXiv CS.CL·30 de abril de 2026

Este artículo introduce MATH-PT, un nuevo conjunto de datos de 1.729 problemas matemáticos en portugués europeo y brasileño, para abordar el sesgo lingüístico en la evaluación del razonamiento matemático de LLMs. La evaluación de modelos de vanguardia muestra un buen rendimiento en preguntas de opción múltiple, pero su rendimiento disminuye en preguntas abiertas.

Leer original