heapsort
RESEARCH30

Robust Reasoning Benchmark

arXiv CS.LG·13 de abril de 2026

Este estudo propõe um novo benchmark para avaliar a robustez do raciocínio de LLMs frente a perturbações textuais, aplicando-o ao conjunto de dados AIME 2024. Os resultados indicam que, enquanto modelos de ponta são resilientes, modelos de código aberto sofrem quedas catastróficas de precisão, expondo fragilidades estruturais no seu raciocínio.

Ler original