RESEARCHarXiv CS.CL·29d atrás
A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering
Esta pesquisa apresenta o Sem-ECE, uma nova estrutura de amostragem semântica para avaliar a calibração em respostas a perguntas abertas de grandes modelos de linguagem. Ele aborda as limitações dos métodos de avaliação existentes, agrupando as respostas amostradas em classes semânticas, o que é crucial para a implantação confiável de LLMs.
27