← heapsort-ai

Benchmarks

67 items

RESEARCHDEV.to AI·7/5/2026

AI agent logs expose reproducibility gaps

Los registros de agentes de IA exponen brechas significativas de reproducibilidad, donde los agentes autónomos pueden pasar del éxito al fracaso con un margen notable, especialmente en tareas de navegación web. Investigaciones como el corpus SWE-chat revelan que menos de la mitad del código producido por agentes sobrevive en los commits de los usuarios, destacando una brecha entre las puntuaciones teóricas y la fiabilidad práctica.

27
RESEARCHarXiv CS.AI·27/4/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Este artículo propone Math Takes Two, un nuevo benchmark diseñado para evaluar el razonamiento matemático emergente en modelos de lenguaje a través de la comunicación. Prueba si dos agentes, sin conocimiento matemático previo, pueden desarrollar un protocolo simbólico compartido para resolver una tarea visualmente fundamentada que facilita la extrapolación numérica.

27
RESEARCHarXiv CS.CL·16/4/2026

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

WorkRB es el primer benchmark de código abierto y dirigido por la comunidad para la IA en el dominio laboral, abordando la fragmentación de la investigación y la sensibilidad de los datos de empleo. Organiza 13 tareas diversas de 7 grupos como tareas unificadas de recomendación y PNL, incluyendo recomendación de empleo/habilidades y extracción de habilidades.

27
RESEARCHarXiv CS.AI·hace 17d

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench es un nuevo benchmark basado en 200 conversaciones genuinas multi-turno entre humanos y modelos para evaluar la inteligencia emocional de los LLM. Mide la capacidad de los modelos para inferir y responder a estados emocionales en conversaciones reales, mostrando que las clasificaciones de los modelos en reconocimiento de emociones y otras métricas son en gran medida independientes.

27
RESEARCHarXiv CS.CL·hace 29d

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D es un nuevo benchmark de datos de redes sociales bengalíes para diagnosticar el comportamiento de los LLM en la anotación de conjuntos cerrados. La investigación revela un fenómeno de "colapso de etiquetas inducido por instrucciones", donde los LLM prefieren sistemáticamente etiquetas de respaldo, subdetectando categorías minoritarias.

27
RESEARCHarXiv CS.AI·hace 14d

BODHI: Precise OS Kernel Specification Inference

Este artículo propone BODHI, un método de "prompting" de conocimiento de dominio para la inferencia de especificaciones del kernel del sistema operativo, con el objetivo de superar las limitaciones actuales de los LLM. Aumenta el "prompt" estándar de pocas muestras con una guía estructurada de traducción de C a Python, mejorando la automatización y la precisión de las especificaciones.

27
RESEARCHarXiv CS.CL·hace 8d

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Este estudio presenta CanLegalRAGBench, un nuevo benchmark canadiense para evaluar sistemas de Generación Aumentada por Recuperación (RAG) en derecho, utilizando consultas realistas y respuestas anotadas por expertos. La investigación revela la sensibilidad del rendimiento de recuperación, la competitividad de los modelos de incrustación de código abierto y las limitaciones de las evaluaciones automáticas y las alucinaciones de los LLM.

27
RESEARCHarXiv CS.AI·hace 13d

Constraint acquisition needs better benchmarks

Los benchmarks actuales para la Adquisición de Restricciones (CA) y modelos de Programación Matemática (MP) son insuficientes, lo que dificulta la reproducibilidad y comparabilidad de la investigación. Este trabajo presenta MPMMine, una nueva suite de benchmarks diseñada para validar y mejorar modelos MP utilizando diversos artefactos de conocimiento de dominio, promoviendo la consistencia y la apertura.

27