heapsort
RESEARCH28

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

arXiv CS.CL·3 juin 2026

Une inspection systématique des divisions de validation de extsf{FOLIO} et extsf{MALLS} a révélé des taux élevés de formalisations FOL incorrectes et de phrases NL ambiguës, faussant l'évaluation des modèles d'IA. Les auteurs ont développé et publié des vérités fondamentales corrigées pour ces ensembles de données, démontrant l'impact des erreurs d'annotation sur l'évaluation des LLM de pointe.

Lire l'original