RESEARCH40
Math Takes Two: A test for emergent mathematical reasoning in communication
arXiv CS.AI·27 de abril de 2026
Este artigo propõe o Math Takes Two, um novo benchmark para avaliar o raciocínio matemático emergente em modelos de linguagem através da comunicação. Ele testa a capacidade de dois agentes sem conhecimento matemático prévio de desenvolver um protocolo simbólico compartilhado para resolver uma tarefa visualmente fundamentada, facilitando a extrapolação numérica.
language modelsmathematical reasoningAI communicationbenchmarksemergent AI
Ler original ↗