← heapsort-ai

evaluation

53 items

ARTICLEDEV.to AI·14/4/2026

The 5 Levels of RAG Maturity: How to Know When Your RAG Is Actually Production-Ready

Este artículo aborda el desafío común de evaluar los sistemas RAG (Retrieval-Augmented Generation), señalando que muchos proyectos no avanzan más allá de las demos iniciales por falta de una evaluación adecuada. Presenta un modelo de madurez de 0 a 5, diseñado para ayudar a las organizaciones a evaluar sus sistemas RAG y determinar cuándo están realmente listos para producción.

27
RESEARCHarXiv CS.CL·5/5/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Se introduce el framework CLEAR para evaluar cómo la ambigüedad y la incerteza afectan la fiabilidad de los Modelos de Lenguaje Grandes (LLMs) médicos, yendo más allá de los benchmarks simplificados. Perturba sistemáticamente las opciones de respuesta y su encuadre semántico, revelando que el aumento de respuestas plausibles degrada el rendimiento de los LLMs y la precaución disminuye con un fraseo incierto de abstención.

27
RESEARCHarXiv CS.CL·1/5/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Este artículo introduce BatteryPass-12K, el primer conjunto de datos público para la novedosa tarea de clasificación de conformidad de pasaportes digitales de baterías (DBP), abordando una necesidad crítica antes de las nuevas regulaciones de la UE. Se evaluaron 22 modelos de lenguaje, revelando que los modelos de "Pensamiento" como GPT-5.4 logran el mejor rendimiento y que los ejemplos few-shot mejoran significativamente los resultados.

27
RESEARCHarXiv CS.CL·16/4/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU es un nuevo benchmark coreano nativo para evaluar la comprensión multimodal en contextos culturales e institucionales coreanos, con 3.466 preguntas de exámenes nativos. El estudio revela que los modelos de IA actuales alcanzan solo un 42,05% de precisión en el conjunto completo, con fallos significativos en problemas cultural y disciplinariamente específicos.

27
RESEARCHarXiv CS.AI·hace 22d

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Este artículo propone un nuevo paradigma para la evaluación interactiva de las mejoras en la Teoría de la Mente (ToM) de los Grandes Modelos de Lenguaje (LLMs) en interacciones humano-IA. Los hallazgos empíricos, basados en conjuntos de datos del mundo real y un estudio de usuario, revelan que las mejoras en los puntos de referencia estáticos no siempre se traducen en beneficios para las interacciones dinámicas humano-IA.

27
RESEARCHarXiv CS.CL·hace 25d

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Esta investigación evalúa modelos de lenguaje grandes (LLMs) en la respuesta a preguntas biomédicas, abordando su fiabilidad cuando se enfrentan a evidencia conflictiva o incompleta. Revela que la precisión de los LLMs disminuye significativamente y las predicciones cambian cuando se invierte el orden de los documentos correctos y contradictorios, destacando problemas con los efectos de orden y la necesidad de abstención consciente del conflicto.

27
RESEARCHarXiv CS.CL·hace 14d

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Este artículo presenta un marco causal para estudiar el sesgo de racionalización en LLMs utilizados como jueces automáticos para la evaluación de resúmenes y diálogos. Investiga si las clasificaciones y explicaciones de los LLMs permanecen estables cuando se perturban las señales no evidenciales, proponiendo intervenciones de señales y métricas de anclaje.

27
RESEARCHarXiv CS.CL·hace 8d

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Este protocolo evalúa la capacidad de ChatGPT para generar y verificar asociaciones biomédicas centradas en enfermedades, utilizando ontologías biomédicas y literatura. Incluye una estrategia de autoconsistencia y un flujo de trabajo habilitado por RAG, impulsado por LLMs de código abierto, para abordar las limitaciones de coincidencia exacta y exponer alucinaciones.

27
RESEARCHarXiv CS.CL·hace 8d

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Este estudio presenta CanLegalRAGBench, un nuevo benchmark canadiense para evaluar sistemas de Generación Aumentada por Recuperación (RAG) en derecho, utilizando consultas realistas y respuestas anotadas por expertos. La investigación revela la sensibilidad del rendimiento de recuperación, la competitividad de los modelos de incrustación de código abierto y las limitaciones de las evaluaciones automáticas y las alucinaciones de los LLM.

27