heapsort
RESEARCH28

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

arXiv CS.CL·3 de junio de 2026

Una inspección sistemática de las divisiones de validación de extsf{FOLIO} y extsf{MALLS} reveló altas tasas de formalizaciones FOL incorrectas y oraciones NL ambiguas, distorsionando la evaluación de modelos de IA. Los autores desarrollaron y publicaron verdades fundamentales corregidas para estos conjuntos de datos, demostrando cómo los errores de anotación impactan la evaluación de LLMs de última generación.

Leer original