CrowdMath: A Dataset of Crowdsourced Mathematical Research Discussions
Este artigo apresenta CrowdMath, um conjunto de dados de 164 cadeias de progresso anotadas por especialistas do programa CrowdMath do MIT PRIMES--Art of Problem Solving. Ele visa avaliar modelos de linguagem grandes na resolução colaborativa de problemas matemáticos abertos, diferenciando-se das avaliações que focam apenas em respostas finais ou provas completas.