RESEARCH40
CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions
arXiv CS.AI·8 de junio de 2026
Este artículo presenta CrowdMath, un conjunto de datos de 164 cadenas de progreso anotadas por expertos del programa CrowdMath del MIT PRIMES--Art of Problem Solving. Su objetivo es evaluar los grandes modelos de lenguaje en la resolución colaborativa de problemas matemáticos abiertos, difiriendo de los puntos de referencia centrados en respuestas finales o pruebas completas.
Leer original ↗