RESEARCH27
MATH-PT: A Math Reasoning Benchmark for European and Brazilian Portuguese
arXiv CS.CL·30. April 2026
Dieser Artikel stellt MATH-PT vor, einen neuen Datensatz mit 1.729 mathematischen Problemen in europäischem und brasilianischem Portugiesisch, um die sprachliche Verzerrung bei der Bewertung des mathematischen Denkens von LLMs zu beheben. Der Benchmark zeigt, dass führende Modelle bei Multiple-Choice-Fragen eine starke Leistung erbringen, diese jedoch bei offenen Fragen abnimmt.
Original lesen ↗