RESEARCH30
Robust Reasoning Benchmark
arXiv CS.LG·13 de abril de 2026
Este estudo propõe um novo benchmark para avaliar a robustez do raciocínio de LLMs frente a perturbações textuais, aplicando-o ao conjunto de dados AIME 2024. Os resultados indicam que, enquanto modelos de ponta são resilientes, modelos de código aberto sofrem quedas catastróficas de precisão, expondo fragilidades estruturais no seu raciocínio.
Ler original ↗