evaluation

53 items

RESEARCHarXiv CS.CL·hace 20d

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

Los agentes de investigación profunda automatizan tareas complejas de búsqueda de información, lo que requiere una evaluación escalable y fiable. El uso de LLMs como jueces para la supervisión plantea dudas sobre su fiabilidad, resaltando la necesidad crítica de una meta-evaluación para estos jueces.

REFLECT meta-evaluation evaluation research agents

RESEARCHarXiv CS.AI·hace 13d

Anchor: Mitigating Artifact Drift in Agent Benchmark Generation

Anchor es un pipeline de generación de tareas que aborda el "artifact drift" en la creación de benchmarks para agentes de IA. Formaliza las especificaciones de expertos en programas de optimización, produciendo conjuntamente instrucciones, entornos, soluciones y verificadores consistentes para operaciones comerciales.

evaluation task generation Benchmarking business workflows

ARTICLEDEV.to AI·hace 23d

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

El contenido subraya la brecha entre las altas puntuaciones de los agentes de IA en los benchmarks y su bajo rendimiento en producción, argumentando que los benchmarks actuales evalúan capacidades limitadas y omiten desafíos cruciales del mundo real. Esta discrepancia es el reto definitorio para la evaluación de agentes de IA en 2026.

evaluation AI deployment Benchmarks AI development

ARTICLEDEV.to AI·hace 29d

Best AI Answering Service for Contractors: An Operator's Evaluation Framework

El fundador de un servicio de respuesta de IA para contratistas presenta un marco para evaluar dichos servicios, reconociendo su sesgo. El artículo proporciona una guía operativa en profundidad sobre pruebas, instrumentación, negociación y problemas comunes de producción, específicamente para constructores y operadores.

framework evaluation contractors answering service

RESEARCHDEV.to AI·5/5/2026

BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents

BrowseComp es un nuevo y desafiante benchmark diseñado para evaluar agentes de navegación. Se centra en tareas complejas que requieren comprensión contextual e interacción con interfaces web, ofreciendo una nueva métrica para el rendimiento de la IA.

evaluation research Benchmarks AI

ARTICLEDEV.to AI·14/4/2026

The 5 Levels of RAG Maturity: How to Know When Your RAG Is Actually Production-Ready

Este artículo aborda el desafío común de evaluar los sistemas RAG (Retrieval-Augmented Generation), señalando que muchos proyectos no avanzan más allá de las demos iniciales por falta de una evaluación adecuada. Presenta un modelo de madurez de 0 a 5, diseñado para ayudar a las organizaciones a evaluar sus sistemas RAG y determinar cuándo están realmente listos para producción.

Production-Ready AI LLMs evaluation RAG

RESEARCHDEV.to AI·19/4/2026

Evaluation of Retrieval-Augmented Generation: A Survey

Esta encuesta evalúa la Generación Aumentada por Recuperación (RAG), analizando su estado actual, arquitecturas y métricas de rendimiento. Proporciona una visión general completa de las técnicas RAG existentes y sus aplicaciones.

Survey evaluation RAG NLP

RESEARCHDEV.to AI·14/4/2026

Don't forget, there is more than forgetting: new metrics for Continual Learning

Este contenido presenta nuevas métricas para el Aprendizaje Continuo, ampliando la evaluación más allá de la prevención del olvido catastrófico. Propone una visión más completa para medir el rendimiento de los modelos de IA en escenarios de aprendizaje secuencial.

AI metrics evaluation machine learning Catastrophic Forgetting

ARTICLEDEV.to AI·hace 18d

Intercom: Outlines Key Factors Beyond Performance for Evaluating AI Customer Service Agents

Intercom publicó un artículo que describe factores cruciales más allá del rendimiento bruto para evaluar a los agentes de IA de servicio al cliente. La publicación enfatiza la integración, personalización y valor a largo plazo como métricas esenciales para seleccionar soluciones de IA.

evaluation customer service business strategy AI

RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Se introduce el framework CLEAR para evaluar cómo la ambigüedad y la incerteza afectan la fiabilidad de los Modelos de Lenguaje Grandes (LLMs) médicos, yendo más allá de los benchmarks simplificados. Perturba sistemáticamente las opciones de respuesta y su encuadre semántico, revelando que el aumento de respuestas plausibles degrada el rendimiento de los LLMs y la precaución disminuye con un fraseo incierto de abstención.

Ambiguity LLMs evaluation Reliability

RESEARCHarXiv CS.CL·1/5/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Este artículo introduce BatteryPass-12K, el primer conjunto de datos público para la novedosa tarea de clasificación de conformidad de pasaportes digitales de baterías (DBP), abordando una necesidad crítica antes de las nuevas regulaciones de la UE. Se evaluaron 22 modelos de lenguaje, revelando que los modelos de "Pensamiento" como GPT-5.4 logran el mejor rendimiento y que los ejemplos few-shot mejoran significativamente los resultados.

evaluation Benchmarking Natural Language Processing datasets

RESEARCHarXiv CS.CL·16/4/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU es un nuevo benchmark coreano nativo para evaluar la comprensión multimodal en contextos culturales e institucionales coreanos, con 3.466 preguntas de exámenes nativos. El estudio revela que los modelos de IA actuales alcanzan solo un 42,05% de precisión en el conjunto completo, con fallos significativos en problemas cultural y disciplinariamente específicos.

language models multimodal AI evaluation Benchmarking

RESEARCHarXiv CS.CL·hace 29d

IntentGrasp: A Comprehensive Benchmark for Intent Understanding

IntentGrasp es un nuevo benchmark integral para evaluar la capacidad de comprensión de intenciones de los LLM, derivado de 49 corpus de alta calidad. Evaluaciones extensivas en 20 LLM demostraron un rendimiento insatisfactorio, con puntuaciones inferiores al 60% en el All Set y al 25% en el Gem Set.

evaluation Benchmarking IntentGrasp intent understanding

RESEARCHarXiv CS.CL·hace 7d

lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

Este artículo describe un sistema para la Tarea-1 de SemEval-2026, que se centra en la generación de humor bajo restricciones explícitas. El enfoque utiliza una estrategia de

evaluation Natural Language Processing humor generation AI Research

RESEARCHarXiv CS.AI·hace 22d

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Este artículo propone un nuevo paradigma para la evaluación interactiva de las mejoras en la Teoría de la Mente (ToM) de los Grandes Modelos de Lenguaje (LLMs) en interacciones humano-IA. Los hallazgos empíricos, basados en conjuntos de datos del mundo real y un estudio de usuario, revelan que las mejoras en los puntos de referencia estáticos no siempre se traducen en beneficios para las interacciones dinámicas humano-IA.

LLMs evaluation human-AI interaction empirical study

RESEARCHarXiv CS.CL·hace 25d

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Esta investigación evalúa modelos de lenguaje grandes (LLMs) en la respuesta a preguntas biomédicas, abordando su fiabilidad cuando se enfrentan a evidencia conflictiva o incompleta. Revela que la precisión de los LLMs disminuye significativamente y las predicciones cambian cuando se invierte el orden de los documentos correctos y contradictorios, destacando problemas con los efectos de orden y la necesidad de abstención consciente del conflicto.

LLMs evaluation Reliability Biomedical AI

RESEARCHarXiv CS.LG·hace 7d

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Este artículo estudia la llamada a herramientas en agentes de modelos de lenguaje grandes (LLM), analizando su efectividad y eficiencia. Demuestra que las evaluaciones son sensibles a las decisiones de implementación y señala el desperdicio computacional en el entrenamiento de aprendizaje por refuerzo.

LLMs evaluation reinforcement learning tool-calling

RESEARCHarXiv CS.CL·hace 14d

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Este artículo presenta un marco causal para estudiar el sesgo de racionalización en LLMs utilizados como jueces automáticos para la evaluación de resúmenes y diálogos. Investiga si las clasificaciones y explicaciones de los LLMs permanecen estables cuando se perturban las señales no evidenciales, proponiendo intervenciones de señales y métricas de anclaje.

LLMs evaluation AI rationalization

RESEARCHarXiv CS.CL·hace 8d

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Este protocolo evalúa la capacidad de ChatGPT para generar y verificar asociaciones biomédicas centradas en enfermedades, utilizando ontologías biomédicas y literatura. Incluye una estrategia de autoconsistencia y un flujo de trabajo habilitado por RAG, impulsado por LLMs de código abierto, para abordar las limitaciones de coincidencia exacta y exponer alucinaciones.

LLMs evaluation ChatGPT RAG

RESEARCHarXiv CS.CL·hace 8d

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Este estudio presenta CanLegalRAGBench, un nuevo benchmark canadiense para evaluar sistemas de Generación Aumentada por Recuperación (RAG) en derecho, utilizando consultas realistas y respuestas anotadas por expertos. La investigación revela la sensibilidad del rendimiento de recuperación, la competitividad de los modelos de incrustación de código abierto y las limitaciones de las evaluaciones automáticas y las alucinaciones de los LLM.

Retrieval Augmented Generation LLMs evaluation Legal AI