Benchmarks

67 items

NEWSDEV.to AI·20/4/2026

AI Weekly: Agent Wars Escalate as Anthropic Reclaims Benchmark Crown and Infrastructure Reality Bites

Esta semana, Claude Opus 4.7 de Anthropic recuperó el primer puesto en benchmarks de codificación, mientras OpenAI expandió las capacidades de automatización de escritorio de Codex. Un análisis de Reuters también reveló una brecha de infraestructura de IA de $7 billones.

OpenAI Anthropic infrastructure Benchmarks

NEWSDEV.to AI·hace 7d

Claude Opus 4.8: Dynamic Workflows and Parallel Subagents

Anthropic lanzó Claude Opus 4.8, que introduce flujos de trabajo dinámicos que permiten cientos de subagentes paralelos para tareas complejas. Esta versión muestra mejoras significativas en los benchmarks como SWE-bench Verified y USAMO, con precios estándar sin cambios y un nuevo modo rápido más asequible.

AI models Anthropic Benchmarks large language models

RESEARCHDEV.to AI·7/5/2026

AI agent logs expose reproducibility gaps

Los registros de agentes de IA exponen brechas significativas de reproducibilidad, donde los agentes autónomos pueden pasar del éxito al fracaso con un margen notable, especialmente en tareas de navegación web. Investigaciones como el corpus SWE-chat revelan que menos de la mitad del código producido por agentes sobrevive en los commits de los usuarios, destacando una brecha entre las puntuaciones teóricas y la fiabilidad práctica.

Software Development Reliability Reproducibility Benchmarks

RESEARCHarXiv CS.CL·1/5/2026

CL-bench Life: Can Language Models Learn from Real-Life Context?

CL-bench Life es un nuevo benchmark curado por humanos, diseñado para evaluar si los modelos de lenguaje de vanguardia pueden aprender eficazmente de contextos complejos y desordenados de la vida real. Consta de 405 pares de contexto-tarea para probar la capacidad de los modelos para razonar sobre experiencias personales y sociales.

context-learning language models Benchmarks

RESEARCHarXiv CS.AI·27/4/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Este artículo propone Math Takes Two, un nuevo benchmark diseñado para evaluar el razonamiento matemático emergente en modelos de lenguaje a través de la comunicación. Prueba si dos agentes, sin conocimiento matemático previo, pueden desarrollar un protocolo simbólico compartido para resolver una tarea visualmente fundamentada que facilita la extrapolación numérica.

language models mathematical reasoning AI communication Benchmarks

RESEARCHarXiv CS.CL·16/4/2026

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

WorkRB es el primer benchmark de código abierto y dirigido por la comunidad para la IA en el dominio laboral, abordando la fragmentación de la investigación y la sensibilidad de los datos de empleo. Organiza 13 tareas diversas de 7 grupos como tareas unificadas de recomendación y PNL, incluyendo recomendación de empleo/habilidades y extracción de habilidades.

hiring future-of-work recommender systems NLP

RESEARCHarXiv CS.AI·4/5/2026

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

ARMOR 2025 es un nuevo benchmark alineado militarmente para evaluar la seguridad de los grandes modelos de lenguaje (LLMs) en aplicaciones de defensa. Se enfoca en doctrinas militares como el Derecho de la Guerra y las Reglas de Enfrentamiento para asegurar el cumplimiento legal y ético.

ethics military AI Benchmarks AI safety

RESEARCHarXiv CS.AI·hace 17d

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench es un nuevo benchmark basado en 200 conversaciones genuinas multi-turno entre humanos y modelos para evaluar la inteligencia emocional de los LLM. Mide la capacidad de los modelos para inferir y responder a estados emocionales en conversaciones reales, mostrando que las clasificaciones de los modelos en reconocimiento de emociones y otras métricas son en gran medida independientes.

Emotional Intelligence Benchmarks human-AI interaction AI evaluation

RESEARCHarXiv CS.CL·hace 29d

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D es un nuevo benchmark de datos de redes sociales bengalíes para diagnosticar el comportamiento de los LLM en la anotación de conjuntos cerrados. La investigación revela un fenómeno de "colapso de etiquetas inducido por instrucciones", donde los LLM prefieren sistemáticamente etiquetas de respaldo, subdetectando categorías minoritarias.

LLMs natural language processing Data Annotation Benchmarks

RESEARCHarXiv CS.AI·hace 17d

SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?

El artículo presenta SMDD-Bench, un nuevo benchmark multi-turno con 502 tareas resolubles para evaluar el rendimiento de agentes LLM en el diseño de fármacos de moléculas pequeñas. Busca estandarizar la evaluación en diversas químicas y objetivos, requiriendo una sólida intuición química, biológica y 3D.

LLMs Scientific Discovery Benchmarks drug design

RESEARCHarXiv CS.CL·hace 29d

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Este estudio presenta un atlas del monitoreo metacognitivo a nivel de dominio en 33 LLM de frontera, analizando 1.500 ítems MMLU en seis dominios. Revela una variación significativa dentro del modelo, siendo el conocimiento Aplicado/Profesional el dominio más fácil y el Razonamiento Formal/Ciencia Natural los más difíciles de monitorear.

LLMs Metacognition cognitive AI Benchmarks

RESEARCHarXiv CS.AI·hace 14d

BODHI: Precise OS Kernel Specification Inference

Este artículo propone BODHI, un método de "prompting" de conocimiento de dominio para la inferencia de especificaciones del kernel del sistema operativo, con el objetivo de superar las limitaciones actuales de los LLM. Aumenta el "prompt" estándar de pocas muestras con una guía estructurada de traducción de C a Python, mejorando la automatización y la precisión de las especificaciones.

AI models LLMs operating systems Formal verification

RESEARCHarXiv CS.CL·hace 8d

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Este estudio presenta CanLegalRAGBench, un nuevo benchmark canadiense para evaluar sistemas de Generación Aumentada por Recuperación (RAG) en derecho, utilizando consultas realistas y respuestas anotadas por expertos. La investigación revela la sensibilidad del rendimiento de recuperación, la competitividad de los modelos de incrustación de código abierto y las limitaciones de las evaluaciones automáticas y las alucinaciones de los LLM.

Retrieval Augmented Generation LLMs evaluation Legal AI

RESEARCHarXiv CS.AI·hace 13d

Constraint acquisition needs better benchmarks

Los benchmarks actuales para la Adquisición de Restricciones (CA) y modelos de Programación Matemática (MP) son insuficientes, lo que dificulta la reproducibilidad y comparabilidad de la investigación. Este trabajo presenta MPMMine, una nueva suite de benchmarks diseñada para validar y mejorar modelos MP utilizando diversos artefactos de conocimiento de dominio, promoviendo la consistencia y la apertura.

Model Validation Constraint Acquisition Mathematical Programming Benchmarks

ARTICLEDEV.to AI·hace 21d

GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, and Benchmarks

El contenido compara GPT-5.5 y Claude Opus 4.7, dos modelos líderes de IA, destacando sus mejoras y enfoques. Busca ayudar a elegir el mejor modelo para proyectos de IA basándose en datos de precios, velocidad y benchmarks.

AI models GPT Claude Benchmarks

RESEARCHDEV.to AI·hace 12d

SpatialBench: New Benchmark Tests Foundation Models on 3D Tasks

SpatialBench es un nuevo benchmark de ropedia_ai que evalúa modelos fundamentales espaciales en 7 tareas y 5 conjuntos de datos. Prueba la verdadera comprensión espacial 3D en estimación de profundidad, predicción normal de superficie y detección de objetos 3D.

spatial computing 3D Foundation Models Benchmarks

RESEARCHDEV.to AI·hace 13d

NVIDIA Vera CPU Benchmarks: 1.55x Faster Than Intel Xeon in Phoronix Tests

Los benchmarks de la CPU NVIDIA Vera de Phoronix muestran un rendimiento 1,55 veces más rápido que el Intel Xeon 6980P y un 10% superior al AMD EPYC 9575F. Este procesador ARM de 88 núcleos, con un ancho de banda de memoria de 1,2 TB/s, está optimizado para cargas de trabajo de IA agenticas.

CPU AI hardware Benchmarks NVIDIA

RESEARCHDEV.to AI·21/4/2026

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

Investigadores presentaron KWBench, un benchmark de 223 tareas para evaluar si los LLM pueden reconocer problemas en escenarios profesionales sin indicaciones explícitas. El mejor modelo solo aprobó el 27,9% de las tareas, destacando una brecha crítica entre la ejecución de tareas y la comprensión situacional.

LLMs Benchmarks AI evaluation

RESEARCHarXiv CS.CL·7/4/2026

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.

LLMs Creative Problem Solving Benchmarks Cognitive Abilities

RESEARCHarXiv CS.CL·hace 28d

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Magis-Bench es un nuevo benchmark para evaluar Modelos de Lenguaje Grandes (LLM) en tareas legales de nivel magistral, utilizando 74 preguntas de recientes exámenes competitivos judiciales brasileños. Evalúa 23 LLM de vanguardia utilizando una metodología "LLM-como-juez" con una fuerte concordancia entre los jueces.

LLMs Legal AI Judicial tasks Benchmarks