Evaluation Metrics

7 items

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Was looking at a ICLR 2025 Oral paper and I am shocked it got oral [D]

Um usuário expressa choque com um artigo oral do ICLR 2025, criticando sua metodologia de avaliação para geração de código SQL por LLMs. O artigo supostamente usou métricas de linguagem natural em vez de métricas de execução, resultando em uma taxa de falsos positivos de aproximadamente 20%.

ICLR Evaluation Metrics Peer review SQL Generation

DOCDEV.to AI·17/04/2026

How to Build a Trust Scoring System for AI Agents (That Actually Works)

Este conteúdo aborda o problema crítico da confiança não verificada em agentes de IA e propõe um sistema de pontuação de confiança de três componentes. O sistema verifica as saídas em relação à verdade conhecida, rastreia o desempenho ao longo do tempo e compara a confiança declarada com a precisão real para penalizar o excesso de confiança.

trustworthiness AI reliability Evaluation Metrics AI safety

RESEARCHarXiv CS.AI·16/04/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Esta pesquisa apresenta um método para quantificar sistematicamente erros de exploração e explotação em agentes de Modelos de Linguagem (LM), superando o desafio de avaliação sem acesso às políticas internas. O estudo propõe ambientes controláveis e uma métrica agnóstica à política para medir esses erros, revelando falhas até em LMs de ponta.

language models reinforcement learning Evaluation Metrics AI agents

RESEARCHarXiv CS.CL·21d atrás

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval aborda o desafio da avaliação de sistemas de diálogo multi-turno, modelando o diálogo como um Grafo de Conhecimento Semântico (SKG) em evolução. Este framework atualiza incrementalmente o grafo através da extração de triplos estruturados para detectar problemas de longo alcance, como contradição e inconsistência, oferecendo uma avaliação aprimorada além das representações isoladas por turno.

Knowledge Graphs Natural Language Processing Evaluation Metrics dialogue systems

RESEARCHarXiv CS.CL·14/04/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Esta pesquisa apresenta a métrica '100-Endings' para resolver a falha dos LLMs em gerar histórias convincentes e em reconhecer suas próprias deficiências. A métrica mede a tensão narrativa prevendo 100 finais a cada frase, mostrando-se mais eficaz que as rubricas atuais para distinguir narrativas humanas de alta qualidade de saídas de IA.

LLMs storytelling Evaluation Metrics Narrative Tension

RESEARCHarXiv CS.AI·01/05/2026

When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems

Esta pesquisa apresenta uma estrutura para migrar sistemas LLM em produção quando seus modelos subjacentes chegam ao fim de sua vida útil ou precisam ser substituídos. Ela utiliza uma abordagem estatística Bayesiana para calibrar métricas de avaliação automatizadas contra julgamentos humanos, permitindo comparações de modelos confiantes com dados manuais limitados.

Production AI model migration Evaluation Metrics LLM

RESEARCHarXiv CS.LG·09/04/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMs reinforcement learning Reasoning Evaluation Metrics