Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling
Eine systematische Überprüfung der Validierungsaufteilungen von extsf{FOLIO} und extsf{MALLS} zeigte hohe Raten inkorrekter FOL-Formalisierungen und mehrdeutiger NL-Sätze, die die Bewertung von KI-Modellen verzerren. Die Autoren entwickelten und veröffentlichten korrigierte Ground Truths für diese Datensätze und zeigten, wie Annotationsfehler die Bewertung modernster LLMs beeinflussen.