RESEARCH27
A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering
arXiv CS.CL·12 de maio de 2026
Esta pesquisa apresenta o Sem-ECE, uma nova estrutura de amostragem semântica para avaliar a calibração em respostas a perguntas abertas de grandes modelos de linguagem. Ele aborda as limitações dos métodos de avaliação existentes, agrupando as respostas amostradas em classes semânticas, o que é crucial para a implantação confiável de LLMs.
Ler original ↗