RESEARCH28
Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling
arXiv CS.CL·3 de junho de 2026
Uma inspeção sistemática das validações de extsf{FOLIO} e extsf{MALLS} revelou altas taxas de formalizações FOL incorretas e sentenças NL ambíguas, distorcendo a avaliação de modelos de IA. Os autores desenvolveram e lançaram verdades fundamentais corrigidas para esses conjuntos de dados, demonstrando como os erros de anotação impactam a avaliação de LLMs de ponta.
Ler original ↗