RESEARCH28

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

arXiv CS.CL·3 de junho de 2026

Uma inspeção sistemática das validações de extsf{FOLIO} e extsf{MALLS} revelou altas taxas de formalizações FOL incorretas e sentenças NL ambíguas, distorcendo a avaliação de modelos de IA. Os autores desenvolveram e lançaram verdades fundamentais corrigidas para esses conjuntos de dados, demonstrando como os erros de anotação impactam a avaliação de LLMs de ponta.

LLMs Neurosymbolic AI Natural Language Processing Benchmarks Data Quality

Ler original ↗