LLM calibration — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·29d atrás

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

Esta pesquisa apresenta o Sem-ECE, uma nova estrutura de amostragem semântica para avaliar a calibração em respostas a perguntas abertas de grandes modelos de linguagem. Ele aborda as limitações dos métodos de avaliação existentes, agrupando as respostas amostradas em classes semânticas, o que é crucial para a implantação confiável de LLMs.

open-ended QA semantic sampling model reliability evaluation framework