RESEARCHarXiv CS.CL·hace 29d
A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering
Esta investigación introduce Sem-ECE, un novedoso marco de muestreo semántico para evaluar la calibración en la respuesta a preguntas abiertas de grandes modelos de lenguaje. Aborda las limitaciones de los métodos de evaluación existentes al agrupar las respuestas muestreadas en clases semánticas, crucial para el despliegue fiable de los LLMs.
27