← heapsort-ai

Evaluation Metrics

7 items

DOCDEV.to AI·17/04/2026

How to Build a Trust Scoring System for AI Agents (That Actually Works)

Este conteúdo aborda o problema crítico da confiança não verificada em agentes de IA e propõe um sistema de pontuação de confiança de três componentes. O sistema verifica as saídas em relação à verdade conhecida, rastreia o desempenho ao longo do tempo e compara a confiança declarada com a precisão real para penalizar o excesso de confiança.

28
RESEARCHarXiv CS.AI·16/04/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Esta pesquisa apresenta um método para quantificar sistematicamente erros de exploração e explotação em agentes de Modelos de Linguagem (LM), superando o desafio de avaliação sem acesso às políticas internas. O estudo propõe ambientes controláveis e uma métrica agnóstica à política para medir esses erros, revelando falhas até em LMs de ponta.

28
RESEARCHarXiv CS.CL·21d atrás

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval aborda o desafio da avaliação de sistemas de diálogo multi-turno, modelando o diálogo como um Grafo de Conhecimento Semântico (SKG) em evolução. Este framework atualiza incrementalmente o grafo através da extração de triplos estruturados para detectar problemas de longo alcance, como contradição e inconsistência, oferecendo uma avaliação aprimorada além das representações isoladas por turno.

27
RESEARCHarXiv CS.CL·14/04/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Esta pesquisa apresenta a métrica '100-Endings' para resolver a falha dos LLMs em gerar histórias convincentes e em reconhecer suas próprias deficiências. A métrica mede a tensão narrativa prevendo 100 finais a cada frase, mostrando-se mais eficaz que as rubricas atuais para distinguir narrativas humanas de alta qualidade de saídas de IA.

27
RESEARCHarXiv CS.AI·01/05/2026

When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems

Esta pesquisa apresenta uma estrutura para migrar sistemas LLM em produção quando seus modelos subjacentes chegam ao fim de sua vida útil ou precisam ser substituídos. Ela utiliza uma abordagem estatística Bayesiana para calibrar métricas de avaliação automatizadas contra julgamentos humanos, permitindo comparações de modelos confiantes com dados manuais limitados.

27
RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27