RESEARCH28

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

arXiv CS.CL·3 de junio de 2026

Una inspección sistemática de las divisiones de validación de extsf{FOLIO} y extsf{MALLS} reveló altas tasas de formalizaciones FOL incorrectas y oraciones NL ambiguas, distorsionando la evaluación de modelos de IA. Los autores desarrollaron y publicaron verdades fundamentales corregidas para estos conjuntos de datos, demostrando cómo los errores de anotación impactan la evaluación de LLMs de última generación.

LLMs Neurosymbolic AI Natural Language Processing Benchmarks Data Quality

Leer original ↗