Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling
Uma inspeção sistemática das validações de extsf{FOLIO} e extsf{MALLS} revelou altas taxas de formalizações FOL incorretas e sentenças NL ambíguas, distorcendo a avaliação de modelos de IA. Os autores desenvolveram e lançaram verdades fundamentais corrigidas para esses conjuntos de dados, demonstrando como os erros de anotação impactam a avaliação de LLMs de ponta.