← heapsort-ai

Evaluation Metrics

7 items

RESEARCH↑ trendingReddit r/MachineLearning·15/4/2026

Was looking at a ICLR 2025 Oral paper and I am shocked it got oral [D]

Un usuario expresa su sorpresa con un artículo oral del ICLR 2025, criticando su metodología de evaluación para la generación de código SQL por LLMs. Según se informa, el artículo utilizó métricas de lenguaje natural en lugar de métricas de ejecución, lo que llevó a una tasa de falsos positivos de aproximadamente el 20%.

38
DOCDEV.to AI·17/4/2026

How to Build a Trust Scoring System for AI Agents (That Actually Works)

Este contenido aborda el problema crítico de la confianza no verificada en los agentes de IA y propone un sistema de puntuación de confianza de tres componentes. El sistema verifica las salidas contra la verdad fundamental, rastrea el rendimiento a lo largo del tiempo y compara la confianza declarada con la precisión real para penalizar la sobreconfianza.

28
RESEARCHarXiv CS.AI·16/4/2026

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Esta investigación presenta un método para cuantificar sistemáticamente los errores de exploración y explotación en agentes de Modelos de Lenguaje (LM), abordando el desafío de la evaluación sin acceso a las políticas internas. Propone entornos controlables y una métrica agnóstica a la política para medir estos errores, revelando fallos incluso en los LM de vanguardia.

28
RESEARCHarXiv CS.CL·hace 21d

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

SKG-Eval aborda el desafío de evaluar sistemas de diálogo multi-turno modelando el diálogo como un Grafo de Conocimiento Semántico (SKG) en evolución. Este framework actualiza incrementalmente el grafo mediante la extracción estructurada de tríos para detectar problemas de largo alcance como contradicción e inconsistencia, ofreciendo una evaluación mejorada más allá de las representaciones aisladas por turno.

27
RESEARCHarXiv CS.CL·14/4/2026

Spoiler Alert: Narrative Forecasting as a Metric for Tension in LLM Storytelling

Esta investigación presenta la métrica '100-Endings' para abordar el fracaso de los LLM en generar historias convincentes y en reconocer sus propios problemas de calidad. La métrica mide la tensión narrativa prediciendo 100 finales frase por frase, demostrando ser más eficaz que las rúbricas actuales para distinguir narrativas humanas de alta calidad de las salidas de IA.

27
RESEARCHarXiv CS.AI·1/5/2026

When Your LLM Reaches End-of-Life: A Framework for Confident Model Migration in Production Systems

Esta investigación presenta un marco para migrar sistemas LLM en producción cuando sus modelos subyacentes llegan al final de su vida útil o requieren reemplazo. Emplea un enfoque estadístico Bayesiano para calibrar métricas de evaluación automatizadas frente a juicios humanos, asegurando una comparación de modelos segura con datos manuales limitados.

27
RESEARCHarXiv CS.LG·9/4/2026

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

27