RESEARCH40
CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions
arXiv CS.AI·8 juin 2026
Cet article présente CrowdMath, un ensemble de données de 164 chaînes de progression annotées par des experts du programme CrowdMath du MIT PRIMES--Art of Problem Solving. Il vise à évaluer les grands modèles linguistiques sur la résolution collaborative de problèmes ouverts en mathématiques, se distinguant des benchmarks axés sur les réponses finales ou les preuves complètes.
Lire l'original ↗