← heapsort-ai

LLM calibration

1 items

RESEARCHarXiv CS.CL·29d atrás

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

Esta pesquisa apresenta o Sem-ECE, uma nova estrutura de amostragem semântica para avaliar a calibração em respostas a perguntas abertas de grandes modelos de linguagem. Ele aborda as limitações dos métodos de avaliação existentes, agrupando as respostas amostradas em classes semânticas, o que é crucial para a implantação confiável de LLMs.

27