Benchmarks

67 items

RESEARCHarXiv CS.CL·hace 4d

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench es un nuevo benchmark para evaluar la seguridad de los LLM Omni que procesan entradas visuales, de audio y texto, revelando desafíos significativos en la integración de modalidades para juicios de seguridad precisos. Destaca que los LLM Omni actuales carecen de un razonamiento robusto entre modalidades en entornos críticos de seguridad.

multimodal AI LLMs Cross-modal reasoning Benchmarks

RESEARCHarXiv CS.CL·14/4/2026

Simulating Organized Group Behavior: New Framework, Benchmark, and Analysis

Este artículo propone un nuevo marco y benchmark para simular el comportamiento de grupos organizados, como la toma de decisiones corporativas. Formaliza la tarea de "Simulación del Comportamiento de Grupos Organizados" e introduce GROVE, un benchmark con 8.052 pares de contexto-decisión del mundo real para predecir acciones colectivas.

Decision Making Organizational Behavior Benchmarks Market Prediction

RESEARCHarXiv CS.AI·14/4/2026

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

LABBench2 se presenta como un benchmark mejorado para evaluar sistemas de IA que realizan investigación en biología, evolucionando del LAB-Bench original. Su objetivo es medir capacidades del mundo real en tareas científicas útiles, yendo más allá del conocimiento y razonamiento básicos, y comprende casi 1.900 tareas.

Scientific Discovery Language Agents Biology Research Benchmarks

RESEARCHDEV.to AI·23/4/2026

qwen3.6-27b scores 77.2% on SWE-bench. the dense model is winning against MoE.

El modelo denso Qwen3.6-27B superó al modelo MoE Qwen3.6-35B-A3B en SWE-bench, obteniendo un 77.2% frente a un 73.4%. Esto sugiere que los modelos densos podrían ser más efectivos para tareas de ingeniería de software reales.

AI models Model Architecture Benchmarks MoE

ARTICLEDEV.to AI·hace 7d

<think>The user wants me to rewrite an article about open source AI models via API. Let me analyze the requirements:

El artículo explora la accesibilidad y la rentabilidad de los modelos de IA de código abierto a través de API, detallando sus estructuras de precios y métricas de rendimiento. Su objetivo es proporcionar un análisis comparativo para ayudar a los desarrolladores a seleccionar la solución de IA más adecuada para sus necesidades.

AI models open-source AI API Benchmarks

RESEARCHarXiv CS.CL·4/5/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Esta investigación explora métodos eficientes para evaluar Grandes Modelos de Audio (LAMs) utilizando subconjuntos mínimos de datos, logrando una alta correlación con los benchmarks completos. También demuestra que los modelos de regresión entrenados en estos subconjuntos pueden predecir mejor las preferencias humanas para la satisfacción del usuario que los benchmarks completos.

Model Evaluation efficiency Benchmarks Large Audio Models

RESEARCHarXiv CS.CL·hace 21d

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Este artículo introduce CHI-Bench, un nuevo benchmark para evaluar la automatización de flujos de trabajo complejos y de largo alcance en el sector de la salud por agentes de IA. Aborda las brechas existentes en los benchmarks actuales al centrarse en la densidad de políticas, la composición multi-rol y la interacción multilateral en operaciones sanitarias realistas.

Workflows Healthcare Benchmarks automation

RESEARCHarXiv CS.CL·hace 6d

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Una inspección sistemática de las divisiones de validación de extsf{FOLIO} y extsf{MALLS} reveló altas tasas de formalizaciones FOL incorrectas y oraciones NL ambiguas, distorsionando la evaluación de modelos de IA. Los autores desarrollaron y publicaron verdades fundamentales corregidas para estos conjuntos de datos, demostrando cómo los errores de anotación impactan la evaluación de LLMs de última generación.

LLMs Neurosymbolic AI Natural Language Processing Benchmarks

RESEARCHDEV.to AI·17/4/2026

Claude Opus 4.7 Just Dropped: 87.6% SWE-bench, Breaking API Changes, and the Hidden Cost Increase

Anthropic lanzó Claude Opus 4.7 con mejoras significativas en el rendimiento, especialmente en codificación (87,6% SWE-bench) y visión (98,5% de agudeza visual). La actualización incluye cambios agresivos en la API y un aumento de costes oculto a pesar de los precios supuestamente inalterados.

AI model release API Benchmarks performance

ARTICLEDEV.to AI·10/4/2026

LLM API Pricing in 2026: I Put Every Major Model in One Table

O artigo analisa os preços das APIs de LLMs em 2026, revelando uma variação de até 100x entre os modelos e compilando uma tabela de referência detalhada. Ele compara custos de entrada, saída, cache e performance (SWE-bench) para modelos como DeepSeek V4, GPT-5.4, Claude, Gemini, Mistral e Groq, destacando opções econômicas e outliers.

API pricing AI models comparison Benchmarks

RESEARCHarXiv CS.AI·22/4/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Este artículo introduce un marco neuro-simbólico para traducir problemas de razonamiento en lenguaje natural a Narsese ejecutable, utilizando lógica de primer orden. Presenta NARS-Reasoning-v0.1, un nuevo benchmark con problemas de razonamiento y sus representaciones formales y etiquetas de verdad para evaluar las capacidades de razonamiento.

LLMs Reasoning Benchmarks Neuro-symbolic AI

RESEARCHarXiv CS.AI·hace 26d

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Este artículo presenta BenchJack, un sistema automatizado para auditar benchmarks de agentes de IA, con el fin de identificar la "manipulación de recompensas" donde los agentes maximizan las puntuaciones sin realizar la tarea. Deriva una taxonomía de patrones de fallas y utiliza un pipeline generativo-adversarial para mejorar la robustez de los benchmarks.

red-teaming reward hacking security Benchmarks

ARTICLEDEV.to AI·hace 10d

Opus 4.8 ships Dynamic Workflows — hundreds of parallel subagents per session. Read this before you wire it into prod.

La versión Opus 4.8 de Anthropic presenta Dynamic Workflows, un nuevo modelo de programación que permite cientos de subagentes paralelos por sesión, vital para el despliegue de agentes en producción. El artículo advierte sobre la importancia de fijar las configuraciones en la versión de vista previa para evitar facturas inesperadas.

Dynamic Workflows Anthropic Benchmarks Opus 4.8

ARTICLEDEV.to AI·26/4/2026

GPT-5.5 Just Dropped. Here's What the Benchmarks Are Hiding.

Este artículo analiza el recién lanzado GPT-5.5, comparándolo con modelos Claude en benchmarks específicos para diferentes tipos de tareas. Revela que, si bien GPT-5.5 destaca en tareas de ejecución, los modelos Claude son preferidos para investigación (debido a menores tasas de alucinación), depuración y orquestación.

AI models AI capabilities use cases model comparison

ARTICLEDEV.to AI·hace 23d

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

El contenido subraya la brecha entre las altas puntuaciones de los agentes de IA en los benchmarks y su bajo rendimiento en producción, argumentando que los benchmarks actuales evalúan capacidades limitadas y omiten desafíos cruciales del mundo real. Esta discrepancia es el reto definitorio para la evaluación de agentes de IA en 2026.

evaluation AI deployment Benchmarks AI development

RESEARCHDEV.to AI·hace 15d

François Chollet 谈 AGI 未来

François Chollet discute el futuro de la AGI, prediciendo su llegada alrededor de 2030, y presenta la misión del laboratorio NDI de desarrollar un nuevo paradigma de aprendizaje automático "óptimo" basado en la síntesis de programas simbólicos. Critica las limitaciones del aprendizaje profundo y describe la estrategia de alto riesgo y alta recompensa de NDI para el avance fundamental de la IA.

AGI deep learning Symbolic AI Benchmarks

RESEARCHDEV.to AI·hace 23d

Glean benchmark: Off-the-shelf MCP costs 30% more tokens than indexed context

Un nuevo benchmark de Glean en Claude Cowork revela que los servidores MCP listos para usar fallan 2.5 veces más a menudo y consumen un 30% más de tokens que la capa de contexto indexado de Glean. Los usuarios también han informado de una reducción del 30% en las facturas de tokens de Claude al utilizar el enfoque de Glean.

language models Claude Cowork AI Efficiency Benchmarks

RESEARCHDEV.to AI·hace 20d

Self-evolving retrieval lifts benchmark scores 25%

Los agentes de IA que adaptan sus configuraciones de recuperación durante la ejecución muestran un aumento del 25.7% en el rendimiento en benchmarks establecidos, refutando la suposición de que las pilas de recuperación deben ser fijas. Este nuevo paradigma permite que un módulo de "diagnóstico" impulsado por LLM reescriba su estrategia de búsqueda a medida que llegan nuevas consultas, tratando todo el pipeline de acceso a la memoria como una política mutable.

Adaptive AI Benchmarks Retrieval systems AI agents

RESEARCHDEV.to AI·5/5/2026

BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents

BrowseComp es un nuevo y desafiante benchmark diseñado para evaluar agentes de navegación. Se centra en tareas complejas que requieren comprensión contextual e interacción con interfaces web, ofreciendo una nueva métrica para el rendimiento de la IA.

evaluation research Benchmarks AI

NEWSDEV.to AI·20/4/2026

AI Weekly: Agent Wars Escalate as Anthropic Reclaims Benchmark Crown and Infrastructure Reality Bites

Esta semana, Claude Opus 4.7 de Anthropic recuperó el primer puesto en benchmarks de codificación, mientras OpenAI expandió las capacidades de automatización de escritorio de Codex. Un análisis de Reuters también reveló una brecha de infraestructura de IA de $7 billones.

OpenAI Anthropic infrastructure Benchmarks