← heapsort-ai

AI evaluation

65 items

RESEARCHarXiv CS.CL·17/4/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Esta investigación examina si los Grandes Modelos de Lenguaje (LLMs) pueden identificar fallas metodológicas, como la fuga de datos, en estudios de aprendizaje automático publicados. Un estudio de caso mostró que seis LLMs de vanguardia detectaron consistentemente fallas de evaluación en un artículo de reconocimiento de gestos debido a la partición de datos no independiente.

27
RESEARCHarXiv CS.AI·hace 17d

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench es un nuevo benchmark basado en 200 conversaciones genuinas multi-turno entre humanos y modelos para evaluar la inteligencia emocional de los LLM. Mide la capacidad de los modelos para inferir y responder a estados emocionales en conversaciones reales, mostrando que las clasificaciones de los modelos en reconocimiento de emociones y otras métricas son en gran medida independientes.

27
RESEARCHarXiv CS.CL·hace 25d

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

Este estudio audita las pipelines de evaluación de física multimodal, revelando prácticas de construcción que distorsionan la medición del razonamiento visión-lenguaje. Aborda la contaminación entre entrenamiento y evaluación, la deriva de traducción y la saturación de preguntas de opción múltiple, liberando nuevos artefactos para cerrar estas brechas.

27
RESEARCHarXiv CS.CL·hace 20d

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

El procesamiento del lenguaje natural (PLN) de bajos recursos ha experimentado un crecimiento explosivo, pero su evaluación enfrenta un desafío crítico: la escasez de experiencia sociolingüística necesaria para evaluar sistemas generativos complejos. Esto da lugar a la "Paradoja de la Escasez de Anotaciones", donde la capacidad técnica para escalar modelos supera la infraestructura humana requerida para una evaluación auténtica.

27
RESEARCHarXiv CS.CL·hace 22d

Capability Conditioned Scaffolding for Professional Human LLM Collaboration

Esta investigación introduce el Andamiaje Condicionado por la Capacidad, un marco que aborda la Deriva de Dominio Profesional en la colaboración humano-LLM al adaptar las intervenciones de IA según los niveles de experiencia del usuario. Una evaluación piloto demostró que este enfoque mejora la colaboración confiable entre humanos e IA, más allá de la personalización estilística.

27
RESEARCHarXiv CS.AI·hace 14d

Confidence Calibration in Large Language Models

Este estudio examina la calibración de la confianza en Grandes Modelos de Lenguaje (LLMs) en diversas tareas, mostrando que los LLMs actuales son demasiado confiados en pruebas difíciles y subconfiados en las fáciles. Los investigadores desarrollaron LifeEval, una nueva prueba para evaluar la calibración del modelo en diferentes niveles de dificultad.

27
RESEARCHarXiv CS.AI·hace 13d

JobBench: Aligning Agent Work With Human Will

JobBench es un nuevo benchmark que evalúa a los agentes de IA en flujos de trabajo identificados por expertos como de alta prioridad para la delegación, cubriendo 130 tareas en 35 ocupaciones. Su objetivo es cambiar el efecto en el mercado laboral de la sustitución al mejoramiento, construyendo agentes que hagan lo que los humanos realmente quieren delegar.

27
RESEARCHarXiv CS.AI·hace 13d

Can LLMs Introspect? A Reality Check

Un nuevo estudio cuestiona si los grandes modelos de lenguaje (LLMs) pueden realmente introspectar, argumentando que las conclusiones actuales pueden ser prematuras. Sugiere que el éxito aparente podría deberse a la detección general de anomalías en lugar de una introspección genuina, basándose en lecciones de la investigación sobre metacognición humana.

27
RESEARCHarXiv CS.AI·21/4/2026

Computational Hermeneutics: Evaluating generative AI as a cultural technology

Este artículo propone la hermenéutica computacional como un nuevo marco para evaluar la IA generativa, vista como una tecnología cultural y una "máquina de contexto". Argumenta que las evaluaciones deben abordar desafíos interpretativos como la situacionalidad, la pluralidad y la ambigüedad, utilizando benchmarks iterativos, inclusivos de personas y que midan el contexto cultural.

27
RESEARCHarXiv CS.AI·23/4/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

Se presenta ThermoQA, un nuevo benchmark de 293 problemas de termodinámica de ingeniería en tres niveles, para evaluar el razonamiento termodinámico en LLMs. LLMs líderes como Claude Opus 4.6 y GPT-5.4 obtienen altas puntuaciones, pero la degradación entre niveles subraya que la memorización de propiedades no implica razonamiento termodinámico, siendo el conjunto de datos y el código de código abierto.

27