LLM calibration — KI-Artikel, Nachrichten & Forschung

RESEARCHarXiv CS.CL·vor 29T

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

Diese Forschung stellt Sem-ECE vor, ein neuartiges semantisches Stichprobenrahmenwerk zur Bewertung der Kalibrierung in offenen Fragenbeantwortungssystemen für große Sprachmodelle. Es adressiert die Einschränkungen bestehender Bewertungsmethoden, indem es gesampelte Antworten in semantische Klassen gruppiert, was für den zuverlässigen Einsatz von LLMs entscheidend ist.

open-ended QA semantic sampling model reliability evaluation framework