AI evaluation

65 items

RESEARCHarXiv CS.CL·17/4/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Esta investigación examina si los Grandes Modelos de Lenguaje (LLMs) pueden identificar fallas metodológicas, como la fuga de datos, en estudios de aprendizaje automático publicados. Un estudio de caso mostró que seis LLMs de vanguardia detectaron consistentemente fallas de evaluación en un artículo de reconocimiento de gestos debido a la partición de datos no independiente.

deep learning machine learning large language models AI evaluation

RESEARCHarXiv CS.AI·hace 19d

Open-World Evaluations for Measuring Frontier AI Capabilities

Este artículo aboga por las "evaluaciones de mundo abierto" como complemento a los benchmarks tradicionales para medir las capacidades de la IA de frontera. Introduce CRUX, un proyecto para realizar estas evaluaciones regulares, a largo plazo y en el mundo real, ejemplificado por un agente de IA que publicó con éxito una aplicación para iOS.

AI capabilities CRUX project open-world evaluations frontier AI

RESEARCHarXiv CS.AI·hace 17d

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench es un nuevo benchmark basado en 200 conversaciones genuinas multi-turno entre humanos y modelos para evaluar la inteligencia emocional de los LLM. Mide la capacidad de los modelos para inferir y responder a estados emocionales en conversaciones reales, mostrando que las clasificaciones de los modelos en reconocimiento de emociones y otras métricas son en gran medida independientes.

Emotional Intelligence Benchmarks human-AI interaction AI evaluation

RESEARCHarXiv CS.CL·hace 29d

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Este estudio presenta un atlas del monitoreo metacognitivo a nivel de dominio en 33 LLM de frontera, analizando 1.500 ítems MMLU en seis dominios. Revela una variación significativa dentro del modelo, siendo el conocimiento Aplicado/Profesional el dominio más fácil y el Razonamiento Formal/Ciencia Natural los más difíciles de monitorear.

LLMs Metacognition cognitive AI Benchmarks

RESEARCHarXiv CS.CL·hace 25d

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

Este estudio audita las pipelines de evaluación de física multimodal, revelando prácticas de construcción que distorsionan la medición del razonamiento visión-lenguaje. Aborda la contaminación entre entrenamiento y evaluación, la deriva de traducción y la saturación de preguntas de opción múltiple, liberando nuevos artefactos para cerrar estas brechas.

multimodal AI Physics reasoning Corpus development Benchmarking

RESEARCHarXiv CS.CL·hace 20d

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

El procesamiento del lenguaje natural (PLN) de bajos recursos ha experimentado un crecimiento explosivo, pero su evaluación enfrenta un desafío crítico: la escasez de experiencia sociolingüística necesaria para evaluar sistemas generativos complejos. Esto da lugar a la "Paradoja de la Escasez de Anotaciones", donde la capacidad técnica para escalar modelos supera la infraestructura humana requerida para una evaluación auténtica.

machine learning NLP Low-resource languages AI evaluation

RESEARCHarXiv CS.CL·hace 26d

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

Este artículo propone evaluar la imparcialidad de los LLM mediante el comportamiento conversacional in situ, en lugar de pruebas estandarizadas. Introduce el marco MAC-Fairness para el análisis del comportamiento en diálogos multiagente, revelando la falta de fiabilidad de los enfoques tradicionales.

LLM fairness Research Methods multi-agent systems AI evaluation

RESEARCHarXiv CS.CL·hace 22d

Capability Conditioned Scaffolding for Professional Human LLM Collaboration

Esta investigación introduce el Andamiaje Condicionado por la Capacidad, un marco que aborda la Deriva de Dominio Profesional en la colaboración humano-LLM al adaptar las intervenciones de IA según los niveles de experiencia del usuario. Una evaluación piloto demostró que este enfoque mejora la colaboración confiable entre humanos e IA, más allá de la personalización estilística.

human-AI collaboration User expertise Domain Adaptation LLM interaction

RESEARCHarXiv CS.AI·hace 11d

BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation

La Iniciativa BEAMS busca orientar el desarrollo de herramientas de IA para modelado y simulación de manera responsable y ética, estableciendo puntos de referencia centrados en el ser humano. Utiliza una infraestructura abierta y el proyecto de código abierto 'sd ai' para evaluar colaborativamente estas herramientas.

open-source AI modeling and simulation Benchmarking AI evaluation

RESEARCHarXiv CS.AI·hace 11d

Review Arcade: On the Human Alignment and Gameability of LLM Reviews

Este estudio evalúa las revisiones generadas por LLM para artículos científicos desde la perspectiva del autor y del revisor. Identifica una alineación limitada con las revisiones humanas y explora cómo los autores pueden "jugar" con estas revisiones para mejorar las presentaciones.

scientific review human-AI interaction AI evaluation LLM

RESEARCHarXiv CS.AI·hace 14d

Confidence Calibration in Large Language Models

Este estudio examina la calibración de la confianza en Grandes Modelos de Lenguaje (LLMs) en diversas tareas, mostrando que los LLMs actuales son demasiado confiados en pruebas difíciles y subconfiados en las fáciles. Los investigadores desarrollaron LifeEval, una nueva prueba para evaluar la calibración del modelo en diferentes niveles de dificultad.

Confidence Calibration Overconfidence machine learning large language models

RESEARCHarXiv CS.AI·hace 13d

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM es un nuevo benchmark que evalúa la Teoría de la Mente en LLMs mediante el modelado explícito de estructuras de creencias. Supera las limitaciones de las evaluaciones basadas solo en respuestas finales, permitiendo analizar representaciones de estados mentales, incluyendo creencias divergentes o erróneas.

LLMs Social Reasoning Benchmarking AI evaluation

RESEARCHarXiv CS.AI·hace 13d

JobBench: Aligning Agent Work With Human Will

JobBench es un nuevo benchmark que evalúa a los agentes de IA en flujos de trabajo identificados por expertos como de alta prioridad para la delegación, cubriendo 130 tareas en 35 ocupaciones. Su objetivo es cambiar el efecto en el mercado laboral de la sustitución al mejoramiento, construyendo agentes que hagan lo que los humanos realmente quieren delegar.

future-of-work job delegation Benchmarking AI evaluation

RESEARCHarXiv CS.AI·hace 13d

Can LLMs Introspect? A Reality Check

Un nuevo estudio cuestiona si los grandes modelos de lenguaje (LLMs) pueden realmente introspectar, argumentando que las conclusiones actuales pueden ser prematuras. Sugiere que el éxito aparente podría deberse a la detección general de anomalías en lugar de una introspección genuina, basándose en lecciones de la investigación sobre metacognición humana.

LLMs cognitive science Metacognition Introspection

RESEARCHDEV.to AI·21/4/2026

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

Investigadores presentaron KWBench, un benchmark de 223 tareas para evaluar si los LLM pueden reconocer problemas en escenarios profesionales sin indicaciones explícitas. El mejor modelo solo aprobó el 27,9% de las tareas, destacando una brecha crítica entre la ejecución de tareas y la comprensión situacional.

LLMs Benchmarks AI evaluation

RESEARCHarXiv CS.AI·21/4/2026

Computational Hermeneutics: Evaluating generative AI as a cultural technology

Este artículo propone la hermenéutica computacional como un nuevo marco para evaluar la IA generativa, vista como una tecnología cultural y una "máquina de contexto". Argumenta que las evaluaciones deben abordar desafíos interpretativos como la situacionalidad, la pluralidad y la ambigüedad, utilizando benchmarks iterativos, inclusivos de personas y que midan el contexto cultural.

humanities AI ethics AI evaluation Generative AI

ARTICLEHugging Face Blog·29/4/2026

AI evals are becoming the new compute bottleneck

Las evaluaciones de IA se están convirtiendo en el nuevo cuello de botella computacional, similar a las antiguas limitaciones impuestas por la potencia de cálculo. Esto sugiere que los recursos y el tiempo necesarios para evaluar modelos de IA son una limitación importante para el progreso.

computational resources machine learning infrastructure AI evaluation AI development

RESEARCHarXiv CS.AI·23/4/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

Se presenta ThermoQA, un nuevo benchmark de 293 problemas de termodinámica de ingeniería en tres niveles, para evaluar el razonamiento termodinámico en LLMs. LLMs líderes como Claude Opus 4.6 y GPT-5.4 obtienen altas puntuaciones, pero la degradación entre niveles subraya que la memorización de propiedades no implica razonamiento termodinámico, siendo el conjunto de datos y el código de código abierto.

Dataset Benchmarking large language models AI evaluation

RESEARCHarXiv CS.CL·hace 28d

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Magis-Bench es un nuevo benchmark para evaluar Modelos de Lenguaje Grandes (LLM) en tareas legales de nivel magistral, utilizando 74 preguntas de recientes exámenes competitivos judiciales brasileños. Evalúa 23 LLM de vanguardia utilizando una metodología "LLM-como-juez" con una fuerte concordancia entre los jueces.

LLMs Legal AI Judicial tasks Benchmarks

RESEARCHarXiv CS.CL·15/4/2026

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Esta investigación introduce el "Filtered Reasoning Score", una métrica novedosa diseñada para evaluar la calidad del razonamiento en modelos de IA. Se enfoca específicamente en evaluar el razonamiento evidente en las salidas o "traces" más seguros de un modelo.

AI metrics machine learning Reasoning AI evaluation