heapsort
RESEARCH27

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

arXiv CS.CL·12 de maio de 2026

Esta pesquisa apresenta o Sem-ECE, uma nova estrutura de amostragem semântica para avaliar a calibração em respostas a perguntas abertas de grandes modelos de linguagem. Ele aborda as limitações dos métodos de avaliação existentes, agrupando as respostas amostradas em classes semânticas, o que é crucial para a implantação confiável de LLMs.

Ler original