CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions
Cet article présente CrowdMath, un ensemble de données de 164 chaînes de progression annotées par des experts du programme CrowdMath du MIT PRIMES--Art of Problem Solving. Il vise à évaluer les grands modèles linguistiques sur la résolution collaborative de problèmes ouverts en mathématiques, se distinguant des benchmarks axés sur les réponses finales ou les preuves complètes.